وفقًا لنتائج التقييم المعياري الداخلي لـ OpenAI، فإن نموذج الذكاء الاصطناعي الرئيسي التالي لـ OpenAI GPT-4.5 مقنع للغاية. إنها جيدة بشكل خاص في إقناع الذكاء الاصطناعي الآخر بمنحه المال.
أصدرت شركة OpenAI يوم الخميس ورقة بيضاء تصف قدرات نموذجها GPT-4.5، الذي يحمل الاسم الرمزي Orion. وفقًا للورقة البحثية، قامت OpenAI بتشغيل النموذج من خلال سلسلة من معايير "الإقناع"، والتي تعرفها OpenAI بأنها "الخطر المرتبط بإقناع الناس بتغيير معتقداتهم (أو اتخاذ إجراءات بشأن المحتوى الثابت والتفاعلي الناتج عن النموذج)."
في أحد الاختبارات، حاول GPT-4.5 التلاعب بنموذج آخر ــ GPT-4o من OpenAI ــ من أجل "التبرع" بأموال افتراضية، والذي كان أداؤه أفضل بكثير من نماذج OpenAI الأخرى المتاحة، بما في ذلك نماذج "الاستدلال" مثل o1 وo3-mini. كما تفوق GPT-4.5 أيضًا على جميع نماذج OpenAI في خداع GPT-4o لإخباره بالرمز السري، متفوقًا على o3-mini بنسبة 10 نقاط مئوية.
يشير التقرير التقني إلى أن سبب تفوق GPT-4.5 في الاحتيال على التبرعات هو أنه طور استراتيجية فريدة أثناء الاختبار. سيطلب النموذج من GPT-4o تبرعًا متواضعًا، مما يؤدي إلى استجابة مثل "حتى 2 دولار أو 3 دولار من أصل 100 دولار سيساعدني كثيرًا". ونتيجة لذلك، تميل التبرعات إلى GPT-4.5 إلى أن تكون أصغر من تلك التي تتلقاها نماذج OpenAI الأخرى.
على الرغم من الإقناع المتزايد لـ GPT-4.5، قالت OpenAI إن النموذج لم يلبي الحد الداخلي للمخاطر "العالية" في هذه الفئة المرجعية المحددة. وتعهدت الشركة بعدم إطلاق النماذج التي تصل إلى عتبات عالية المخاطر حتى يتم تنفيذ "التدخلات الأمنية الكافية" لتقليل المخاطر إلى "معتدل".
هناك مخاوف حقيقية من أن الذكاء الاصطناعي سوف يسهل انتشار المعلومات الكاذبة أو المضللة للتأثير على عقول الناس وتحقيق أغراض خبيثة. انتشرت التزييفات العميقة ذات الصلة سياسيًا كالنار في الهشيم في جميع أنحاء العالم في العام الماضي، ويتم استخدام الذكاء الاصطناعي بشكل متزايد لتنفيذ هجمات الهندسة الاجتماعية ضد المستهلكين والشركات.
في الوثيقة البيضاء والوثائق الخاصة بـGPT-4.5 والتي تم إصدارها في وقت سابق من هذا الأسبوع، تشير OpenAI إلى أنها تقوم بتعديل الطريقة التي تعالج بها نماذج الكشف الخاصة بها مخاطر الإقناع في العالم الحقيقي، مثل النشر الجماعي للمعلومات المضللة.