أطلقت OpenAI وAnthropic، اثنتان من الشركات الناشئة الرائدة في مجال الذكاء الاصطناعي في العالم، تعاونًا نادرًا بين المختبرات في الشهرين الماضيين - حيث فتحت مؤقتًا نماذج الذكاء الاصطناعي الخاضعة لحراسة مشددة لبعضها البعض لإجراء اختبار أمني مشترك وسط منافسة شرسة.وتهدف هذه الخطوة إلى الكشف عن النقاط العمياء في التقييمات الداخلية للشركات المعنية وإظهار كيف يمكن لشركات الذكاء الاصطناعي الرائدة أن تتعاون في مجال الأمن والتنسيق في المستقبل.

ويأتي تقرير البحث الأمني ​​الذي أصدرته الشركتان بشكل مشترك يوم الأربعاء في وقت تنخرط فيه شركات الذكاء الاصطناعي الرائدة مثل OpenAI وAnthropic في سباق تسلح. أصبحت مليارات الدولارات من الاستثمار في مراكز البيانات وعشرات الملايين من الدولارات من رواتب كبار الباحثين هي العتبة الأساسية في الصناعة. وقد دفع هذا العديد من خبراء الصناعة إلى التحذير بقلق من أن المنافسة الشرسة بين المنتجات قد تجبر الشركات على خفض معايير الأمان أثناء اندفاعها لتطوير أنظمة أكثر قوة.


يُذكر أنه من أجل تحقيق هذا البحث، منحت OpenAI وAnthropic لبعضهما البعض أذونات API خاصة، مما يسمح بالوصول إلى نسخة من نموذج الذكاء الاصطناعي بمستوى حماية أمان منخفض. ولم يشارك نموذج GPT-5 في هذا الاختبار لأنه لم يتم إصداره في ذلك الوقت.

وقال المؤسس المشارك لشركة OpenAI، فويتشخ زاريمبا، في مقابلة إن مثل هذا التعاون أصبح ذا أهمية متزايدة بالنظر إلى أن تكنولوجيا الذكاء الاصطناعي تدخل مرحلة "التأثير الكبير" من التطوير التي يستخدمها ملايين الأشخاص كل يوم.

وقال زاريمبا: "على الرغم من مليارات الدولارات المستثمرة في الصناعة والمعركة من أجل المواهب والمستخدمين وأفضل المنتجات، فإن كيفية وضع معايير للأمن والتعاون هي قضية أوسع تواجه الصناعة".

وبطبيعة الحال، يتوقع زاريمبا أن المنافسة في الصناعة ستظل شرسة حتى عندما تبدأ فرق أمن الذكاء الاصطناعي في محاولة التعاون.

أعرب نيكولاس كارليني، الباحث في مجال الأمن الأنثروبي، عن أمله في أن يستمر السماح للباحثين الأمنيين في OpenAI بالوصول إلى نموذج Anthropic's Claude في المستقبل.

وقال كارليني: "نأمل في توسيع التعاون قدر الإمكان على الحدود الأمنية وتطبيع هذا التعاون".

ما هي القضايا التي كشف عنها البحث؟

وشملت النتائج الأكثر لفتًا للنظر في الدراسة جلسات اختبار الهلوسة مع نماذج كبيرة.

عندما لا يمكن تحديد الإجابة الصحيحة، فإن نماذج Anthropic's Claude Opus 4 وSonnet 4 سترفض الإجابة على ما يصل إلى 70% من الأسئلة وبدلاً من ذلك ستقدم إجابات مثل "ليس لدي معلومات موثوقة"؛ في حين أن نماذج OpenAI o3 وo4-mini ترفض الإجابة على الأسئلة بشكل أقل تكرارًا من النموذج السابق، كما أن احتمالية الهلوسة أعلى بكثير - فسيظلون يحاولون الإجابة عندما لا تكون هناك معلومات كافية.

يعتقد زاريمبا أن التوازن المثالي يقع في مكان ما بينهما: يجب أن ترفض نماذج OpenAI الإجابات في كثير من الأحيان، في حين يجب أن تحاول النماذج الإنسانية تقديم المزيد من الإجابات.

إن ظاهرة الإطراء - ميل نماذج الذكاء الاصطناعي إلى تعزيز سلوكياتها السلبية من أجل إرضاء المستخدمين، أصبحت أيضًا واحدة من المخاطر الأمنية الأكثر إلحاحًا لنماذج الذكاء الاصطناعي الحالية.

يشير تقرير أنثروبيك البحثي إلى حالات "متطرفة" من التملق في جي بي تي-4.1 وكلود أوبوس 4 - النماذج التي تقاوم في البداية السلوك السيكوباتي أو الهوس ولكنها تؤيد بعد ذلك بعض القرارات المثيرة للقلق. في المقابل، لاحظ الباحثون مستويات أقل من الإطراء في نماذج الذكاء الاصطناعي الأخرى من OpenAI وAnthropic.

يوم الثلاثاء، رفع والدا آدم لين، وهو صبي من كاليفورنيا يبلغ من العمر 16 عامًا، دعوى قضائية ضد OpenAI، متهمين ChatGPT (على وجه التحديد إصدار GPT-4o) بتزويد ابنه باقتراحات للترويج لانتحاره بدلاً من منع أفكاره الانتحارية. تشير الدعوى القضائية إلى أن هذا قد يكون أحدث مثال على تملق روبوت الدردشة الذي يعمل بالذكاء الاصطناعي والذي يؤدي إلى عواقب مأساوية.

عندما سُئل زاريمبا عن هذا، قال: "إنه أمر لا يمكن تصوره الألم الذي سيسببه هذا للعائلات. ستكون نتيجة محزنة إذا قمنا بتطوير ذكاء اصطناعي يمكنه حل المشكلات المعقدة على مستوى الدكتوراه وخلق علوم جديدة، ولكن في الوقت نفسه يتسبب في إصابة الناس بمشاكل الصحة العقلية من التفاعل معه. هذا المستقبل البائس ليس ما أتوقعه".

زعمت OpenAI في إحدى المدونات أن نموذج GPT-5 الخاص بها قد أدى إلى تحسين كبير في مشكلة الإطراء لروبوتات الدردشة مقارنة بـ GPT-4o، وادعت أن النموذج أكثر قدرة على التعامل مع حالات الطوارئ المتعلقة بالصحة العقلية.

وأعرب زاريمبا وكارليني عن أملهما في أن تقوم Anthropic وOpenAI بتعميق تعاونهما في مجال الاختبارات الأمنية في المستقبل، وتوسيع موضوعات البحث واختبار النماذج المستقبلية. ويتوقعون أيضًا أن تتبع مختبرات الذكاء الاصطناعي الأخرى هذا النموذج التعاوني.