新框架让人工智能代理重写自己的技能,而无需重新训练底层模型
部署自主代理的一个主要挑战是构建能够适应环境变化的系统,而无需重新训练底层大型语言模型 (LLM)。 Memento-Skills 是由多所大学的研究人员开发的新框架,它通过让代理能够自行发展技能来解决这一瓶颈。 “它将 持续学习 功能添加到当前市场的现有产品(例如 OpenClaw 和 Claude Code)中,”该论文的合著者 Jun Wang 告诉 VentureBeat。 Memento…
部署自主代理的一个主要挑战是构建能够适应环境变化的系统,而无需重新训练底层大型语言模型 (LLM)。
Memento-Skills 是由多所大学的研究人员开发的新框架,它通过让代理能够自行发展技能来解决这一瓶颈。 “它将持续学习功能添加到当前市场的现有产品(例如 OpenClaw 和 Claude Code)中,”该论文的合著者 Jun Wang 告诉 VentureBeat。
Memento-Skills 充当不断进化的外部存储器,允许系统在不修改底层模型的情况下逐步提高其功能。该框架提供了一组技能,当代理从其环境中接收反馈时,可以更新和扩展这些技能。
对于在生产中运行代理的企业团队来说,这一点很重要。另一种选择——微调模型权重或手动构建技能——会带来大量的运营开销和数据要求。 Memento-Skills 回避了这两点。
构建自我进化代理的挑战
自我进化代理至关重要,因为它们克服了冻结语言模型的局限性。模型部署后,其参数保持固定,将其限制为训练期间编码的知识以及适合其直接上下文窗口的任何内容。
为模型提供外部内存支架使其能够改进,而无需进行昂贵且缓慢的重新训练过程。然而,当前的代理适应方法很大程度上依赖于手动设计的技能来处理新任务。虽然存在一些自动技能学习方法,但它们大多会生成相当于提示优化的纯文本指南。其他方法只是记录不跨不同任务传输的单任务轨迹。
此外,当这些代理尝试检索新任务的相关知识时,它们通常依赖于语义相似性路由器,例如标准密集嵌入;高度的语义重叠并不能保证行为效用。依赖于标准RAG的代理可以检索“密码重置”信息。解决“退款处理”问题的脚本查询只是因为文档共享企业术语。
“大多数检索增强生成 (RAG) 系统依赖于基于相似性的检索。然而,当技能被表示为可执行工件(例如 Markdown 文档或代码片段)时,仅靠相似性可能无法选择最有效的技能。”王说。
Memento-Skills 如何存储和更新技能
为了解决当前代理系统的局限性,研究人员构建了 Memento-Skills。该论文将该系统描述为“一个多面手、可不断学习的 LLM 代理系统,充当代理设计代理。” Memento-Skills 不是被动地记录过去的对话,而是创建了一组充当持久、不断发展的外部记忆的技能。
这些技能存储为结构化 Markdown 文件,并作为代理不断发展的知识库。每个可重复使用的技能神器都由三个核心要素组成。它包含声明性规范,概述了该技能是什么以及应该如何使用它。它包括指导语言模型推理的专门指令和提示。它包含代理运行以实际解决任务的可执行代码和帮助程序脚本。
Memento-Skills 通过其“读写反思学习”实现持续学习。机制,它将内存更新框架为主动策略迭代而不是被动数据记录。当面对新任务时,代理会查询专门的技能路由器来检索行为最相关的技能(而不仅仅是语义上最相似的技能)并执行它。
代理执行技能并收到反馈后,系统会反映结果以关闭学习循环。系统不只是附加所发生事件的日志,而是主动改变其内存。如果执行失败,编排器将评估跟踪并重写技能工件。这意味着它会直接更新代码或提示修补特定的故障模式。在需要的时候,它会创造出一种全新的技能。
M