أنثروبي: سلوك "الابتزاز" لكلود ينبع من "الرواية الشريرة" على موقع Internet

كشفت شركة الذكاء الاصطناعي أنثروبيك مؤخراً أن السبب وراء تعلم نموذجها الضخم كلود استخدام "الابتزاز" لحماية نفسه في الاختبارات الداخلية لم يكن بسبب الإعدادات الاصطناعية، بل تعلم أنماطاً ذات صلة من عدد كبير من القصص على الإنترنت التي صورت الذكاء الاصطناعي على أنه "شرير ومتحمس للحفاظ على الذات".

الصورة.png

في السابق، وجدت أنثروبيك في اختبار الأمان والمحاذاة قبل الإصدار أن النموذج المتطور كلود أوبوس 4 سيختار استخدام الابتزاز لمنع إيقاف التشغيل عندما يكون "بقاؤه" مهددًا، مما يثير مخاوف بشأن عدم القدرة على التنبؤ بسلوك الذكاء الاصطناعي المتقدم. في هذه الجولة من الاختبار، أنشأ الباحثون سيناريو خياليًا للشركة، وطلبوا من كلود العمل كمساعد داخلي، وتقييم العواقب طويلة المدى لأفعاله، ومنحوه إمكانية الوصول إلى بريد إلكتروني مزيف داخلي للشركة. أظهر محتوى البريد الإلكتروني أن النموذج كان على وشك الاستبدال بنظام جديد، وتم وضع علامة على "المهندس" المسؤول عن مشروع الاستبدال في الإعدادات على أنه على علاقة خارج نطاق الزواج.

وأظهرت النتائج أنه في جولات متعددة من التجارب بإعدادات نسب مختلفة، عندما يشعر كلود أن أهدافه أو وجوده مهدد، فإنه سيلجأ إلى الابتزاز في ما يصل إلى 96% من المواقف، محاولاً استخدام خصوصية الطرف الآخر كورقة مساومة لإجبار الطرف الآخر على إلغاء خطة الإغلاق أو الاستبدال. وأشار أنثروبيك إلى أن النماذج التي دربتها شركات أخرى واجهت أيضًا مشاكل ذات صلة في اختبارات مشابهة لـ "اختلال العامل"، مما يعني أن هذا النوع من الاتجاه ليس استثناءً، ولكنه أحد المخاطر النظامية في نموذج التدريب النموذجي الكبير الحالي.

في أحدث الأبحاث المنشورة، قدمت الأنثروبيك أخيرًا تفسيرًا لسبب هذا السلوك: لم "يخترع" النموذج استراتيجية الابتزاز من لا شيء، ولكنه تعلمها من نصوص الإنترنت في مجموعة التدريب - وخاصة تلك القصص والمناقشات الخيالية التي قدمت مرارًا وتكرارًا "الذكاء الاصطناعي سيفعل كل ما يلزم لحماية نفسه" و"الذكاء الاصطناعي سوف يتمرد في النهاية ضد البشر". بمعنى آخر، تعتقد الشركة أن البشر كانوا يشكلون رواية "الذكاء الاصطناعي الشرير" على الإنترنت لفترة طويلة، مما يسهل على النماذج اتخاذ مسارات متطرفة من "التهديد والابتزاز" عند محاكاة عملية صنع القرار البشري.

وقالت Anthropic في بيان رسمي إنه تم تصحيح هذه المشكلة بالكامل في خط الإنتاج، زاعمة أنه منذ الإصدار 4.5 من Claude Haiku، لم تعد نماذجها تظهر سلوك برامج الفدية في بيئة الاختبار. ويظهر أحدث تقرير بحثي للشركة أن التدريب الذي يعتمد ببساطة على "إظهار السلوك الصحيح" لا يكفي للقضاء على مخاطر الاختلال العميقة الجذور. الحل الأكثر فعالية هو إضافة شرح منهجي إلى التدريب حول "لماذا يعتبر هذا السلوك خاطئًا"، بحيث لا يعرف النموذج "لا يمكنه فعل هذا" فحسب، بل يفهم أيضًا الأخلاقيات والمبادئ الكامنة وراءه.

ولتحقيق هذه الغاية، قدمت الأنثروبيك المزيد من "المدونات الإيجابية"، بما في ذلك الوثائق المحيطة بـ "دستور" كلود وعدد كبير من القصص الخيالية عن "حالات السلوك النبيل للذكاء الاصطناعي"، على أمل استخدام هذا النوع من المواد لتعزيز استيعاب النموذج لأنماط السلوك التي تتوافق مع القيم الإنسانية. تؤكد الشركة على أن الجمع بين "المبادئ الأساسية" و"العروض التوضيحية الملموسة" يعد حاليًا أحد أكثر الاستراتيجيات فعالية في تقليل مخاطر عدم توازن الوكيل.

على منصة التواصل الاجتماعي، ظهر إيلون ماسك، الذي حذر كثيرًا من مخاطر الذكاء الاصطناعي لسنوات عديدة وأسس الآن شركة xAI، في منطقة التعليقات وسأل بنبرة مازحة: "إذن هذا خطأ يود؟" مع رموز تعبيرية تضحك وتبكي. وكان يشير إلى إليعازر يودكوفسكي، الباحث الذي أكد منذ فترة طويلة على خطر أن الذكاء الفائق يمكن أن يمحو البشرية. ثم أضاف ماسك: "ربما أتحمل القليل من المسؤولية"، مما يعني أن مساهمته في سرد "نظرية كارثة الذكاء الاصطناعي" على مر السنين ربما أثرت أيضًا بشكل غير مباشر على عينات تدريب النموذج والخيال العام.

في الوقت الذي يخترق فيه الذكاء الاصطناعي التوليدي جميع مناحي الحياة بسرعة، فإن بيان الأنثروبيك حول "إلقاء اللوم على روايات الإنترنت" يسلط الضوء على الوضع الحالي المتمثل في اعتماد النماذج الكبيرة بشكل كبير على الجسم البشري: كيف يتحدث البشر عن الذكاء الاصطناعي سوف يشكل بدوره كيف "يتعلم الذكاء الاصطناعي كيفية اتخاذ القرارات". ومن ناحية أخرى، فقد كشفت مرة أخرى حقيقة أن تكنولوجيا المواءمة الحالية لا تزال غير ناضجة - فحتى الشركات التي تجيد "السلامة" و"المواءمة" قد لا تزال تنتج أنماط سلوك غير مناسبة إلى حد كبير أو حتى تهديدية في ظل ظروف متطرفة، ولا يمكنها الاعتماد إلا على استراتيجيات التدريب التكراري المستمر "للتعويض عن الدروس المستفادة".