يتمثل أحد التحديات الرئيسية في نشر الوكلاء المستقلين في بناء أنظمة يمكنها التكيف مع التغيرات في بيئاتهم دون الحاجة إلى إعادة تدريب النماذج اللغوية الكبيرة الأساسية (LLMs).

مهارات التذكار، وهو إطار عمل جديد طوره باحثون في جامعات متعددة، يعالج عنق الزجاجة هذا من خلال منح الوكلاء القدرة على تطوير مهاراتهم بأنفسهم. "تضيف هذه الميزة إمكانية التعلم المستمر إلى العروض الحالية في السوق الحالية، مثل OpenClaw وClaude Code. وقال جون وانغ، المؤلف المشارك في الورقة البحثية، لـ VentureBeat.

تعمل Memento-Skills كذاكرة خارجية متطورة، مما يسمح للنظام بتحسين قدراته تدريجيًا دون تعديل النموذج الأساسي. يوفر إطار العمل مجموعة من المهارات التي يمكن تحديثها وتوسيعها عندما يتلقى الوكيل تعليقات من بيئته.

بالنسبة لفرق المؤسسة التي تدير وكلاء في الإنتاج، فإن هذا مهم. البديل - ضبط أوزان النماذج أو بناء المهارات يدويًا - يحمل تكاليف تشغيلية كبيرة ومتطلبات بيانات كبيرة. تتجنب مهارات Memento-Skills كليهما.

تعد تحديات بناء عوامل ذاتية التطور

تعد العوامل ذاتية التطور أمرًا بالغ الأهمية لأنها تتغلب على قيود نماذج اللغة المجمدة. بمجرد نشر النموذج، تظل معلماته ثابتة، ويقتصر على المعرفة المشفرة أثناء التدريب وأي شيء يناسب نافذة السياق المباشر الخاصة به.

إن منح النموذج دعامة للذاكرة الخارجية يمكّنه من التحسن دون عملية إعادة التدريب المكلفة والبطيئة. ومع ذلك، تعتمد الأساليب الحالية لتكيف الوكيل إلى حد كبير على المهارات المصممة يدويًا للتعامل مع المهام الجديدة. على الرغم من وجود بعض أساليب تعلم المهارات التلقائية، إلا أنها تنتج في الغالب أدلة نصية فقط ترقى إلى مستوى التحسين السريع. تقوم الأساليب الأخرى ببساطة بتسجيل مسارات مهمة واحدة لا تنتقل عبر مهام مختلفة.

علاوة على ذلك، عندما يحاول هؤلاء الوكلاء استرداد المعرفة ذات الصلة لمهمة جديدة، فإنهم يعتمدون عادةً على أجهزة توجيه التشابه الدلالي، مثل التضمينات الكثيفة القياسية؛ التداخل الدلالي العالي لا يضمن المنفعة السلوكية. قد يقوم الوكيل الذي يعتمد على RAG القياسي باسترداد عملية "إعادة تعيين كلمة المرور" برنامج نصي لحل مشكلة "معالجة استرداد الأموال" الاستعلام ببساطة لأن المستندات تشترك في مصطلحات المؤسسة.

"تعتمد معظم أنظمة توليد الاسترجاع المعزز (RAG) على الاسترجاع القائم على التشابه. ومع ذلك، عندما يتم تمثيل المهارات كعناصر قابلة للتنفيذ مثل مستندات تخفيض السعر أو مقتطفات التعليمات البرمجية، فإن التشابه وحده قد لا يحدد المهارة الأكثر فعالية. قال وانغ. 

كيف تقوم المهارات التذكارية بتخزين المهارات وتحديثها

لحل القيود المفروضة على الأنظمة الوكيلة الحالية، قام الباحثون ببناء المهارات التذكارية. تصف الورقة النظام بأنه "نظام وكيل LLM عام وقابل للتعلم باستمرار ويعمل كوكيل لتصميم الوكيل." بدلاً من الاحتفاظ بسجل سلبي للمحادثات السابقة، تنشئ Memento-Skills مجموعة من المهارات التي تعمل كذاكرة خارجية مستمرة ومتطورة.

يتم تخزين هذه المهارات كملفات تخفيض منظمة وتكون بمثابة قاعدة معرفية متطورة للوكيل. تتكون كل قطعة أثرية مهارة قابلة لإعادة الاستخدام من ثلاثة عناصر أساسية. ويحتوي على مواصفات تصريحية تحدد ماهية المهارة وكيف ينبغي استخدامها. ويتضمن تعليمات ومطالبات متخصصة توجه منطق نموذج اللغة. ويحتوي على التعليمات البرمجية القابلة للتنفيذ والبرامج النصية المساعدة التي يقوم الوكيل بتشغيلها لحل المهمة فعليًا.

تحقق Memento-Skills التعلم المستمر من خلال "التعلم التأملي للقراءة والكتابة". الآلية، التي تؤطر تحديثات الذاكرة كتكرار نشط للسياسة بدلاً من تسجيل البيانات السلبي. عند مواجهة الوكيل بمهمة جديدة، يستعلم عن موجه مهارات متخصص لاستعادة المهارة الأكثر صلة بالسلوك - وليس فقط الأكثر تشابهًا من الناحية الدلالية - وتنفيذها.

وبعد أن ينفذ الوكيل المهارة ويتلقى التعليقات، يفكر النظام في النتيجة لإغلاق حلقة التعلم. بدلاً من مجرد إلحاق سجل بما حدث، يقوم النظام بتغيير ذاكرته بشكل فعال. إذا فشل التنفيذ، يقوم المنسق بتقييم التتبع وإعادة كتابة عناصر المهارة. وهذا يعني أنه يقوم بتحديث التعليمات البرمجية مباشرة أو يطالب بتصحيح وضع الفشل المحدد. وفي حالة الحاجة، فإنه يخلق مهارة جديدة تمامًا.

م