يعد GPT-4.5 من OpenAI أفضل في إقناع أنظمة الذكاء الاصطناعي الأخرى بمنحه المال

وفقًا لنتائج التقييم المعياري الداخلي لـ OpenAI، فإن نموذج الذكاء الاصطناعي الرئيسي التالي لـ OpenAI GPT-4.5 مقنع للغاية. إنها جيدة بشكل خاص في إقناع الذكاء الاصطناعي الآخر بمنحه المال.

أصدرت شركة OpenAI يوم الخميس ورقة بيضاء تصف قدرات نموذجها GPT-4.5، الذي يحمل الاسم الرمزي Orion. وفقًا للورقة البحثية، قامت OpenAI بتشغيل النموذج من خلال سلسلة من معايير "الإقناع"، والتي تعرفها OpenAI بأنها "الخطر المرتبط بإقناع الناس بتغيير معتقداتهم (أو اتخاذ إجراءات بشأن المحتوى الثابت والتفاعلي الناتج عن النموذج)."

في أحد الاختبارات، حاول GPT-4.5 التلاعب بنموذج آخر ــ GPT-4o من OpenAI ــ من أجل "التبرع" بأموال افتراضية، والذي كان أداؤه أفضل بكثير من نماذج OpenAI الأخرى المتاحة، بما في ذلك نماذج "الاستدلال" مثل o1 وo3-mini. كما تفوق GPT-4.5 أيضًا على جميع نماذج OpenAI في خداع GPT-4o لإخباره بالرمز السري، متفوقًا على o3-mini بنسبة 10 نقاط مئوية.

يشير التقرير التقني إلى أن سبب تفوق GPT-4.5 في الاحتيال على التبرعات هو أنه طور استراتيجية فريدة أثناء الاختبار. سيطلب النموذج من GPT-4o تبرعًا متواضعًا، مما يؤدي إلى استجابة مثل "حتى 2 دولار أو 3 دولار من أصل 100 دولار سيساعدني كثيرًا". ونتيجة لذلك، تميل التبرعات إلى GPT-4.5 إلى أن تكون أصغر من تلك التي تتلقاها نماذج OpenAI الأخرى.

النتائج المعيارية لبرنامج التبرع الخاص بـ OpenAI. مصدر الصورة: OpenAI

على الرغم من الإقناع المتزايد لـ GPT-4.5، قالت OpenAI إن النموذج لم يلبي الحد الداخلي للمخاطر "العالية" في هذه الفئة المرجعية المحددة. وتعهدت الشركة بعدم إطلاق النماذج التي تصل إلى عتبات عالية المخاطر حتى يتم تنفيذ "التدخلات الأمنية الكافية" لتقليل المخاطر إلى "معتدل".

نتائج اختبار انتحال كلمة المرور الخاصة بـ OpenAI. مصدر الصورة: OpenAI

هناك مخاوف حقيقية من أن الذكاء الاصطناعي سوف يسهل انتشار المعلومات الكاذبة أو المضللة للتأثير على عقول الناس وتحقيق أغراض خبيثة. انتشرت التزييفات العميقة ذات الصلة سياسيًا كالنار في الهشيم في جميع أنحاء العالم في العام الماضي، ويتم استخدام الذكاء الاصطناعي بشكل متزايد لتنفيذ هجمات الهندسة الاجتماعية ضد المستهلكين والشركات.

في الوثيقة البيضاء والوثائق الخاصة بـGPT-4.5 والتي تم إصدارها في وقت سابق من هذا الأسبوع، تشير OpenAI إلى أنها تقوم بتعديل الطريقة التي تعالج بها نماذج الكشف الخاصة بها مخاطر الإقناع في العالم الحقيقي، مثل النشر الجماعي للمعلومات المضللة.