Un desafío importante en el despliegue de agentes autónomos es construir sistemas que puedan adaptarse a los cambios en sus entornos sin la necesidad de volver a entrenar los grandes modelos de lenguaje (LLM) subyacentes.

Memento-Skills, un nuevo marco desarrollado por investigadores de múltiples universidades, aborda este cuello de botella al brindar a los agentes la capacidad de desarrollar sus habilidades por sí mismos. "Agrega su capacidad de aprendizaje continuo a la oferta existente en el mercado actual, como OpenClaw y Claude Code", afirmó. Jun Wang, coautor del artículo, dijo a VentureBeat.

Memento-Skills actúa como una memoria externa en evolución, lo que permite que el sistema mejore progresivamente sus capacidades sin modificar el modelo subyacente. El marco proporciona un conjunto de habilidades que se pueden actualizar y ampliar a medida que el agente recibe comentarios de su entorno.

Para los equipos empresariales que ejecutan agentes en producción, eso es importante. La alternativa (ajustar los pesos del modelo o desarrollar habilidades manualmente) conlleva importantes gastos operativos y requisitos de datos. Memento-Skills evita ambos.

Los desafíos de crear agentes que evolucionan automáticamente

Los agentes que evolucionan automáticamente son cruciales porque superan las limitaciones de los modelos de lenguaje congelados. Una vez que se implementa un modelo, sus parámetros permanecen fijos, restringiéndolo al conocimiento codificado durante el entrenamiento y a todo lo que encaje en su ventana de contexto inmediato.

Darle al modelo una estructura de memoria externa le permite mejorar sin el costoso y lento proceso de reentrenamiento. Sin embargo, los enfoques actuales para la adaptación de agentes se basan en gran medida en habilidades diseñadas manualmente para manejar nuevas tareas. Si bien existen algunos métodos automáticos de aprendizaje de habilidades, en su mayoría producen guías de solo texto que equivalen a una optimización rápida. Otros enfoques simplemente registran trayectorias de una sola tarea que no se transfieren entre diferentes tareas.

Además, cuando estos agentes intentan recuperar conocimiento relevante para una nueva tarea, generalmente dependen de enrutadores de similitud semántica, como incrustaciones densas estándar; una alta superposición semántica no garantiza la utilidad conductual. Un agente que dependa del RAG estándar podría recuperar un mensaje de "restablecimiento de contraseña" script para resolver un problema de "procesamiento de reembolso". consulta simplemente porque los documentos comparten terminología empresarial.

"La mayoría de los sistemas de recuperación de generación aumentada (RAG) se basan en la recuperación basada en similitudes. Sin embargo, cuando las habilidades se representan como artefactos ejecutables, como documentos de rebajas o fragmentos de código, es posible que la similitud por sí sola no seleccione la habilidad más efectiva”, afirmó. Dijo Wang. 

Cómo Memento-Skills almacena y actualiza las habilidades

Para resolver las limitaciones de los sistemas agentes actuales, los investigadores construyeron Memento-Skills. El artículo describe el sistema como "un sistema de agentes LLM generalista y de aprendizaje continuo que funciona como un agente de diseño de agentes". En lugar de mantener un registro pasivo de conversaciones pasadas, Memento-Skills crea un conjunto de habilidades que actúan como una memoria externa persistente y en evolución.

Estas habilidades se almacenan como archivos de rebajas estructurados y sirven como base de conocimientos en evolución del agente. Cada artefacto de habilidad reutilizable se compone de tres elementos centrales. Contiene especificaciones declarativas que describen qué es la habilidad y cómo debe usarse. Incluye instrucciones e indicaciones especializadas que guían el razonamiento del modelo de lenguaje. Y alberga el código ejecutable y los scripts auxiliares que el agente ejecuta para resolver la tarea.

Memento-Skills logra un aprendizaje continuo a través de su sistema de "aprendizaje reflexivo de lectura y escritura". mecanismo, que enmarca las actualizaciones de memoria como una iteración de política activa en lugar de un registro de datos pasivo. Cuando se enfrenta a una nueva tarea, el agente consulta un enrutador de habilidades especializado para recuperar la habilidad más relevante desde el punto de vista del comportamiento (no solo la más semánticamente similar) y la ejecuta.

Después de que el agente ejecuta la habilidad y recibe retroalimentación, el sistema reflexiona sobre el resultado para cerrar el ciclo de aprendizaje. En lugar de simplemente agregar un registro de lo sucedido, el sistema muta activamente su memoria. Si la ejecución falla, un orquestador evalúa el seguimiento y reescribe los artefactos de habilidad. Esto significa que actualiza directamente el código o solicita parchear el modo de falla específico. En caso de necesidad, crea una habilidad completamente nueva.

M