Новая структура позволяет агентам ИИ переписывать свои собственные навыки без переобучения базовой модели.
Одной из основных проблем при развертывании автономных агентов является создание систем, которые могут адаптироваться к изменениям в своей среде без необходимости переобучения лежащих в их основе боль…
Одной из основных проблем при развертывании автономных агентов является создание систем, которые могут адаптироваться к изменениям в своей среде без необходимости переобучения лежащих в их основе больших языковых моделей (LLM).
Memento-Skills, новая структура, разработанная исследователями из нескольких университетов, устраняет это узкое место, предоставляя агентам возможность самостоятельно развивать свои навыки. "Он добавляет свои возможности непрерывного обучения к существующим предложениям на текущем рынке, таким как OpenClaw и Claude Code," Цзюнь Ван, соавтор статьи, рассказал VentureBeat.
Memento-Skills действует как развивающаяся внешняя память, позволяя системе постепенно улучшать свои возможности без изменения базовой модели. Платформа предоставляет набор навыков, которые можно обновлять и расширять по мере того, как агент получает обратную связь от своей среды.
Для корпоративных групп, использующих агентов в производственной среде, это важно. Альтернатива — точная настройка весов модели или наращивание навыков вручную — сопряжена со значительными операционными накладными расходами и требованиями к данным. Memento-Skills обходит и то, и другое.
Проблемы создания саморазвивающихся агентов
Саморазвивающиеся агенты имеют решающее значение, поскольку они преодолевают ограничения замороженных языковых моделей. После развертывания модели ее параметры остаются фиксированными, ограничиваясь знаниями, закодированными во время обучения, и всем, что помещается в ее непосредственное контекстное окно.
Предоставление модели внешней памяти позволяет ей совершенствоваться без дорогостоящего и медленного процесса переобучения. Однако современные подходы к адаптации агентов во многом полагаются на навыки, создаваемые вручную для решения новых задач. Хотя существуют некоторые автоматические методы обучения навыкам, они в основном создают только текстовые руководства, которые представляют собой подсказку по оптимизации. Другие подходы просто регистрируют траектории одной задачи, которые не передаются между разными задачами.
Более того, когда эти агенты пытаются получить соответствующие знания для новой задачи, они обычно полагаются на маршрутизаторы семантического сходства, такие как стандартные плотные встраивания; высокое семантическое перекрытие не гарантирует поведенческую полезность. Агент, полагающийся на стандартный RAG, может получить «сброс пароля». сценарий для решения "обработки возврата" запрос просто потому, что в документах используется корпоративная терминология.
"Большинство систем расширенного поиска (RAG) полагаются на поиск на основе сходства. Однако когда навыки представлены в виде исполняемых артефактов, таких как документы с уценкой или фрагменты кода, сходство само по себе не может выбрать наиболее эффективный навык», — сказал он. - сказал Ван.
Как Memento-Skills хранит и обновляет навыки
Чтобы устранить ограничения существующих агентных систем, исследователи создали Memento-Skills. В документе система описывается как «универсальная, постоянно обучаемая агентская система LLM, которая функционирует как агент, проектирующий агентов». Вместо пассивного ведения журнала прошлых разговоров Memento-Skills создает набор навыков, которые действуют как постоянная развивающаяся внешняя память.
Эти навыки хранятся в виде структурированных файлов уценки и служат развивающейся базой знаний агента. Каждый многоразовый артефакт навыков состоит из трех основных элементов. Он содержит декларативные спецификации, описывающие, что такое навык и как его следует использовать. Он включает в себя специализированные инструкции и подсказки, которые направляют рассуждения языковой модели. В нем хранится исполняемый код и вспомогательные сценарии, которые агент запускает для фактического решения задачи.
Memento-Skills обеспечивает непрерывное обучение посредством своего «рефлексивного обучения чтения и записи»; механизм, который рассматривает обновления памяти как активную итерацию политики, а не как пассивную регистрацию данных. Столкнувшись с новой задачей, агент запрашивает специализированный маршрутизатор навыков, чтобы получить наиболее релевантный с точки зрения поведения навык, а не только наиболее семантически схожий, и выполняет его.
После того, как агент выполняет навык и получает обратную связь, система анализирует результат, чтобы замкнуть цикл обучения. Вместо того, чтобы просто добавлять журнал того, что произошло, система активно изменяет свою память. Если выполнение завершается неудачно, оркестратор оценивает трассировку и перезаписывает артефакты навыка. Это означает, что он напрямую обновляет код или предлагает исправить конкретный режим сбоя. В случае необходимости создаёт совершенно новый навык.
M