L'un des défis majeurs du déploiement d'agents autonomes est de créer des systèmes capables de s'adapter aux changements de leur environnement sans avoir besoin de recycler les grands modèles de langage (LLM) sous-jacents.

Memento-Skills, un nouveau cadre développé par des chercheurs de plusieurs universités, résout ce goulot d'étranglement en donnant aux agents la possibilité de développer leurs compétences par eux-mêmes. "Il ajoute sa capacité d'apprentissage continu à l'offre existante sur le marché actuel, comme OpenClaw et Claude Code," Jun Wang, co-auteur de l'article, a déclaré à VentureBeat.

Memento-Skills agit comme une mémoire externe évolutive, permettant au système d'améliorer progressivement ses capacités sans modifier le modèle sous-jacent. Le framework fournit un ensemble de compétences qui peuvent être mises à jour et étendues à mesure que l'agent reçoit des commentaires de son environnement.

Pour les équipes d'entreprise qui exécutent des agents en production, c'est important. L’alternative – affiner les pondérations du modèle ou développer manuellement les compétences – entraîne des frais opérationnels et des exigences en matière de données importants. Memento-Skills évite les deux.

Les défis liés à la création d'agents auto-évolutifs

Les agents auto-évolutifs sont cruciaux car ils surmontent les limites des modèles de langage figés. Une fois qu'un modèle est déployé, ses paramètres restent fixes, le limitant aux connaissances encodées lors de la formation et à tout ce qui correspond à sa fenêtre de contexte immédiat.

Donner au modèle un échafaudage de mémoire externe lui permet de s'améliorer sans le processus coûteux et lent de recyclage. Cependant, les approches actuelles d’adaptation des agents reposent largement sur des compétences conçues manuellement pour gérer de nouvelles tâches. Bien qu'il existe certaines méthodes d'apprentissage automatique des compétences, elles produisent principalement des guides textuels qui équivalent à une optimisation rapide. D'autres approches enregistrent simplement les trajectoires d'une tâche unique qui ne sont pas transférées entre les différentes tâches.

De plus, lorsque ces agents tentent de récupérer des connaissances pertinentes pour une nouvelle tâche, ils s'appuient généralement sur des routeurs de similarité sémantique, tels que des intégrations denses standards ; un chevauchement sémantique élevé ne garantit pas une utilité comportementale. Un agent s'appuyant sur le RAG standard peut récupérer une « réinitialisation du mot de passe » ; script pour résoudre un "traitement de remboursement" requête simplement parce que les documents partagent la terminologie de l'entreprise.

"La plupart des systèmes de génération augmentée de récupération (RAG) s'appuient sur une récupération basée sur la similarité. Cependant, lorsque les compétences sont représentées sous forme d'artefacts exécutables tels que des documents markdown ou des extraits de code, la similarité à elle seule peut ne pas sélectionner la compétence la plus efficace », explique-t-il. Wang a dit. 

Comment Memento-Skills stocke et met à jour les compétences

Pour résoudre les limites des systèmes agentiques actuels, les chercheurs ont construit Memento-Skills. L’article décrit le système comme « un système d’agent LLM généraliste, à apprentissage continu, qui fonctionne comme un agent de conception d’agent ». Au lieu de conserver un journal passif des conversations passées, Memento-Skills crée un ensemble de compétences qui agissent comme une mémoire externe persistante et évolutive.

Ces compétences sont stockées sous forme de fichiers de démarques structurés et servent de base de connaissances évolutive pour l'agent. Chaque artefact de compétence réutilisable est composé de trois éléments principaux. Il contient des spécifications déclaratives qui décrivent ce qu'est la compétence et comment elle doit être utilisée. Il comprend des instructions et des invites spécialisées qui guident le raisonnement du modèle de langage. Et il héberge le code exécutable et les scripts d'assistance que l'agent exécute pour résoudre réellement la tâche.

Memento-Skills réalise un apprentissage continu grâce à son « apprentissage réflexif en lecture-écriture ». mécanisme, qui encadre les mises à jour de la mémoire comme une itération de politique active plutôt que comme un enregistrement passif des données. Lorsqu'il est confronté à une nouvelle tâche, l'agent interroge un routeur de compétences spécialisé pour récupérer la compétence la plus pertinente sur le plan comportemental (et pas seulement la plus sémantiquement similaire) et l'exécute.

Une fois que l'agent a exécuté la compétence et reçu des commentaires, le système réfléchit au résultat pour boucler la boucle d'apprentissage. Plutôt que de simplement ajouter un journal de ce qui s'est passé, le système mute activement sa mémoire. Si l'exécution échoue, un orchestrateur évalue la trace et réécrit les artefacts de compétence. Cela signifie qu'il met directement à jour le code ou invite à corriger le mode de défaillance spécifique. En cas de besoin, cela crée une compétence entièrement nouvelle.

M