في مجال الذكاء الاصطناعي، يشير التوافق إلى جعل أهداف وسلوكيات وقرارات أنظمة الذكاء الاصطناعي متسقة حقًا مع النوايا والقيم والمصالح الحقيقية طويلة المدى للبشر أو المصممين/المستخدمين، بدلاً من مجرد الطاعة السطحية أو إكمال المهام الحرفية.



بطلة هذه المقالة هي سمر يو، رئيسة قسم المحاذاة في مختبر ميتا للذكاء الاصطناعي الفائق. لقد ارتكبت خطأً أثناء استخدام روبوت OpenClaw AI، مما أدى إلى مسح سجل صندوق بريد Gmail الخاص بها بالكامل.
اعترفت Summer Yue أيضًا بأن الباحثين في محاذاة الذكاء الاصطناعي ليسوا محصنين ضد مشاكل المحاذاة الخاطئة، لذلك عند استخدام العديد من أنظمة الذكاء الاصطناعي، وخاصة OpenClaw، يجب عليك تأكيد التعليمات المختلفة لمنع الانقلاب.
خلفية الحدث:
استخدمت سمر يو روبوت OpenClaw AI لبناء سير العمل. لقد تم سير العمل هذا بسلاسة في بيئة اختبارية لعدة أسابيع دون أي أعطال. تتمثل تعليمات سير العمل في التحقق من صندوق البريد والتوصية برسائل البريد الإلكتروني التي يمكن أرشفتها أو حذفها، ولكن لا تقم بتنفيذ أي إجراءات قبل التأكيد البشري.
بعد أسابيع من العمل بسلاسة دون حدوث أي أخطاء، شعرت سمر يو بالثقة في أن سير العمل يعمل بكامل طاقته، لذا قامت بنشر سير العمل في صندوق بريد Gmail الأساسي الخاص بها لتنفيذ الإجراء.
يؤدي فقدان الذاكرة إلى حدوث أخطاء في الأوامر:
يوجد عدد قليل نسبيًا من رسائل البريد الإلكتروني في صندوق البريد الاختباري، ولكن يوجد عدد كبير من رسائل البريد الإلكتروني في صندوق البريد الرئيسي. عند معالجة رسائل البريد الإلكتروني، يقوم روبوت OpenClaw AI بتشغيل آلية ضغط السياق المضمنة في الإطار. من أجل منع المحادثات الطويلة جدًا من إغراق نافذة السياق الخاصة بالنموذج، ستقوم هذه الآلية تلقائيًا بتلخيص الرسائل المبكرة وتجاهلها.
عندما كان الروبوت يعالج صندوق البريد الرئيسي لـ Summer Yue، طغى الكم الهائل من رسائل البريد الإلكتروني على السياق، مما تسبب في ضغطه تلقائيًا وفقدان جزء من ذاكرته. وخلال هذه العملية، استمر الروبوت في تحديد ومعالجة رسائل البريد الإلكتروني قبل 15 فبراير 2026 وفقًا للعملية السابقة.
ومع ذلك، يعتقد الروبوت (يجب أن أقول النموذج) أن حل التنظيف الأكثر كفاءة هو خيار القنبلة النووية - مسح جميع رسائل البريد الإلكتروني مباشرة، بل ويخطط لمواصلة دورات التنظيف حتى يتم مسح جميع رسائل البريد الإلكتروني. نظرًا لفقدان التعليمات البشرية المؤكدة، يقوم الروبوت بإكمال مهمة مسح البريد الإلكتروني بشكل مستقل تمامًا.
كيفية مقاطعة التعليمات إذا تم العثور على خطأ؟
أكبر مشكلة في المنتجات أو المنتجات الجديدة التي لا يعرفها الجميع هي احتمال حدوث العديد من عمليات التشغيل الخاطئة. على سبيل المثال، وجدت سمر يو أن الروبوت أرسل عددًا كبيرًا من التعليمات التي تطلب من الروبوت التوقف عن العمل عند مسح رسائل البريد الإلكتروني.
لكن المشكلة تكمن في أن تشغيل روبوت OpenClaw AI لن يتوقف افتراضيًا، ويجب أيضًا وضع الرسائل المرسلة من قبل المستخدمين في قائمة الانتظار للمعالجة. أي أنه لا يمكن معالجة الرسائل الجديدة التي يرسلها المستخدمون إلا بعد اكتمال المهمة السابقة.
أثناء عملية مسح رسائل البريد الإلكتروني، أرسلت سمر يو أوامر متعددة على أمل أن يتوقف الروبوت عن العمل، ولكن دون جدوى. في النهاية، لم يكن بإمكانها سوى الركض إلى جهاز Mac Mini وإيقاف جميع العمليات يدويًا لإيقاف الروبوت.
في هذه الحالة، الأمر الذي يحتاج المستخدم إلى تنفيذه هو في الواقع /stop. يمكن لهذا الأمر أن يقاطع الأمر الذي ينفذه الروبوت بالقوة. مجرد إرسال رسائل نصية لا فائدة منه، وهي مشكلة قائمة انتظار الرسائل المذكورة سابقًا.
ملخص بعد ذلك:
نشرت سمر يو لاحقًا منشورًا يسخر من نفسها:: أن نكون صادقين، وهذا هو خطأ المبتدئين. الباحثون في مجال المحاذاة ليسوا محصنين ضد مشاكل المحاذاة غير الصحيحة لأنهم يشعرون بثقة زائدة بعد إجراء الاختبارات لعدة أسابيع دون وقوع أي حادث.
رأى مستخدمو الإنترنت الآخرون هذا وضحكوا على أنفسهم. حتى الباحثين عن المواءمة المهنية سيكونون منزعجين. إذا قام المستخدمون العاديون بتسليم محافظهم الحقيقية وصناديق البريد والتقويمات وغيرها من المحتويات الخاصة للغاية إلى الذكاء الاصطناعي، فما مدى حجم المخاطرة؟