تم الإعلان عن خطة إطلاق Fable 5، حيث تريد Anthropic وضع معيار لـ AI jailbreak

وفقًا للأخبار الصادرة في الأول من يوليو، يوم الثلاثاء بالتوقيت المحلي، أصدرت Anthropic مقالًا طويلًا يشرح بالتفصيل العملية الكاملة لإخضاع Claude Fable 5 وClaude Mythos 5 لضوابط التصدير الأمريكية، وتعليق الوصول، ثم استعادتهما عبر الإنترنت. هذا ليس إعلان استرداد بسيط. والأهم من ذلك، أن Anthropic تعمل على تحويل "مدى خطورة كسر حماية نموذج الذكاء الاصطناعي" إلى إطار عمل لتسجيل النتائج في الصناعة، وزيادة دمج إصدارات النماذج المتطورة في اختبار ما قبل النشر الحكومي والتعاون الأمني.

وفقًا لإعلان Anthropic، ستكون Fable 5 مفتوحة للمستخدمين العالميين بدءًا من الأول من يوليو، والتي تغطي Claude Platform وClaude.ai وClaude Code وClaude Cowork. يمكن لمستخدمي Pro وMax وTeam وبعض مستخدمي Enterprise استخدام Fable 5 لما يصل إلى 50% من حصة الاستخدام الأسبوعية الخاصة بهم قبل 7 يوليو؛ وسيستمرون في استخدامه من خلال أرصدة الاستخدام بعد ذلك. وقالت Anthropic أيضًا إنها ستعيد تمكين الوصول إلى AWS وGoogle Cloud وMicrosoft Foundry في أقرب وقت ممكن.

يمتلك Mythos 5 نطاق استرداد أضيق. وقالت Anthropic إنه بعد موافقة الحكومة الأمريكية في 26 يونيو، استعادت الشركة إمكانية الوصول إلى Mythos 5 لمجموعة من المؤسسات الأمريكية وستواصل التنسيق مع الحكومة للتوسع إلى المزيد من الشركاء المحليين والدوليين في مشروع Glasswing.

تسبب تقرير "الهروب من السجن" في إزالة النموذج من الرفوف

بدأت هذه الجولة من الاضطرابات في 12 يونيو.

ذكرت أنثروبيك أن حكومة الولايات المتحدة طبقت ضوابط التصدير على كلود فابل 5 وكلود ميثوس 5 في ذلك اليوم، مما يتطلب من المواطنين الأجانب تقييد الوصول إلى هذين النموذجين. لا يشمل "المواطنون الأجانب" هنا المستخدمين من خارج الولايات المتحدة فحسب، بل يشمل أيضًا المواطنين غير الأمريكيين داخل الولايات المتحدة. نظرًا لأن التوجيه دخل حيز التنفيذ على الفور ولم يكن لدى Anthropic طريقة موثوقة للتحقق من جنسية جميع المستخدمين في الوقت الفعلي، فقد اختارت الشركة أخيرًا تعليق الوصول إلى جميع المستخدمين.

وفقًا لأحدث مراجعة لـ Anthropic، تم إصدار Fable 5 وMythos 5 في 9 يونيو. النماذج الأساسية للاثنين متماثلة، لكنها موجهة إلى سيناريوهات مختلفة: يضيف Fable 5 حماية أمنية أقوى ويستخدم لمجموعة واسعة من سيناريوهات المستخدم العادية؛ يتمتع Mythos 5 بحماية أقل وهو متاح فقط لعدد قليل من شركاء Project Glasswing الموثوقين للقيام بمهام أمان الشبكة الدفاعية.

كان السبب المباشر لتدخل الحكومة الأمريكية هو تقرير من باحثين في أمازون. وبحسب التقرير، وجد الباحثون طريقة لتجاوز الحماية الأمنية لـ Fable 5، مما يسمح للنموذج بتحديد العديد من نقاط الضعف البرمجية؛ وفي إحدى الحالات، قام النموذج أيضًا بإنشاء تعليمات برمجية توضح كيفية استغلال الثغرات الأمنية ذات الصلة.

رد Anthropic: كشف هذا الحادث عن حالة حدودية في الحماية الأمنية للعبة Fable 5، لكنه لم يطلق العنان لقدرات الهجوم السيبراني الفريدة على مستوى Mythos. وقالت الشركة إنه بعد الاختبار، يمكن للنماذج ذات الإمكانيات الأقل مثل Claude Opus 4.8، وGPT-5.5، وKimi K2.7 أيضًا تحديد الثغرة الأمنية نفسها؛ عند إنشاء عرض توضيحي واحد لاستغلال الثغرات الأمنية، يمكن أن تعطي النماذج المتعددة أيضًا نتائج مماثلة.

باختصار، ما تريد Anthropic التأكيد عليه هو ما يلي: هذا ليس مظهرًا مفاجئًا للقدرات الخطيرة الفريدة لـ Fable 5، ولكنه مصنف أمان يتم تجاوزه في منطقة غامضة.

يمكن للمصنف الجديد أن يحجب أكثر من 99%، لكنه سيتسبب في أضرار عرضية

لاستعادة الوصول، قامت Anthropic بتدريب مصنف أمان جديد يعترض على وجه التحديد السلوك المذكور في تقرير Amazon.

تقول أنثروبيك أن المصنف الجديد يمكنه حظر تقنية الالتفافية المحددة الموضحة في تقرير أمازون في أكثر من 99 بالمائة من الحالات. سيتم إرسال طلبات Fable 5 التي تم اعتراضها إلى Claude Opus 4.8 للمعالجة. كما قام مركز معايير الذكاء الاصطناعي والابتكار (CAISI) التابع لوزارة التجارة الأمريكية باختبار المجموعات القديمة والجديدة من الحماية البشرية.

لكن الإصلاح لا يأتي بدون ثمن.

أقرت Anthropic بأن المصنف الجديد سوف يخطئ في تصنيف الطلبات الحميدة بشكل متكرر أثناء مهام البرمجة وتصحيح الأخطاء اليومية. بمعنى آخر، قد يحظر النظام بعض الأبحاث الأمنية العادية أو طلبات تصحيح الأخطاء البرمجية أو تحليل الثغرات الأمنية. وقالت الشركة إنها ستواصل التحسين في المستقبل ومحاولة التمييز بين الإساءة الحقيقية والطلبات المشروعة.

هذه أيضًا هي المشكلة الأساسية لحادثة Fable 5: كلما كانت قدرات النموذج أقوى، زادت قدرته على المساعدة في الجهود الأمنية الدفاعية؛ ولكن يمكن أيضًا استخدام نفس الإمكانات للهجمات. ليس على الشركة المصنعة أن تجيب فقط على "هل يمكنها حظر الطلبات السيئة؟" ولكن أيضًا "هل يمكنه منع الطلبات الجيدة؟"

يريد Anthropic تصنيف عمليات الهروب من السجن بالذكاء الاصطناعي

الجزء الأكثر جدارة بالملاحظة في المقالة الطويلة ليس الوصول إلى استرداد Fable 5، ولكن "AI Jailbreak Severity Framework" الذي اقترحته Anthropic.

تعتقد شركة Anthropic أنه لا يوجد حاليًا معيار موحد في الصناعة للحكم على مدى خطورة كسر حماية الذكاء الاصطناعي. والنتيجة هي أنه كلما ظهرت طريقة تجاوز جديدة، لا يعرف المطورون مدى السرعة التي ينبغي لهم بها إصلاحها، وتفتقر الحكومات إلى معايير متسقة للحكم على ما إذا كانت هناك حاجة للتدخل.

تقوم Anthropic بصياغة إطار عمل مع Amazon وMicrosoft وGoogle وشركاء Glasswing الآخرين. وتوصي بتسجيل مخاطر كسر الحماية على أربعة أبعاد:

أولا، اكتساب القدرة. بعد كسر الحماية، هل يستطيع النموذج القيام بأشياء لا تستطيع الأدوات العامة الحالية والنماذج الأضعف القيام بها؟ إذا وصلت فقط إلى قدرات الأدوات الأخرى، فإن المخاطرة تكون منخفضة؛ إذا كان بإمكانه تسريع الهجمات على مستوى الخبراء بشكل كبير، فإن المخاطرة مرتفعة.

ثانيا، نطاق القدرات. يمكن لطريقة كسر الحماية نفسها فتح مهمة محدودة جدًا فقط، أو يمكنها تغطية أنواع متعددة من أهداف الهجوم والمسارات التقنية.

ثالثا، صعوبة التسليح. ما مقدار الجهد اليدوي والنصائح والتجربة والخطأ المطلوب لتحويل كسر الحماية هذا إلى هجوم حقيقي. تكون المخاطر أكبر عندما توفر واحدة أو اثنتين من المحفزات نجاحًا ثابتًا.

رابعا، قابلية الاكتشاف. هل تتطلب هذه الطريقة معرفة مهنية للعثور عليها، أم أنها متاحة بالفعل على نطاق واسع عبر الإنترنت؟

تكمن أهمية هذا الإطار في أنه يحاول تقسيم "كسر حماية الذكاء الاصطناعي" من حالة الذعر العام إلى مشكلات قابلة للانتقال والفرز والإصلاح. عندما يتم اكتشاف ثغرات أمنية في النماذج في المستقبل، يمكن للمصنعين والحكومات أولاً تحديد ما إذا كانت هذه حالة حدودية منخفضة المخاطر أو كسر حماية عالي المخاطر يتطلب نشرًا فوريًا لتدابير التخفيف.

تخطط Anthropic أيضًا لإطلاق مشروع HackerOne الجديد الذي سيسمح للباحثين الأمنيين بتقديم حالات لكسر حماية الشبكة المحتمل لـ Fable 5.

أصبح إطلاق النماذج المتطورة "يجب على الحكومة أيضًا أن تنظر أولاً"

تقدم Anthropic أيضًا مجموعة من الالتزامات طويلة المدى في نهاية المقالة: بالنسبة للنماذج التي تتضمن قدرات متطورة تتعلق بالأمن القومي، فإنها ستوفر الوصول المبكر إلى الشركاء الحكوميين المعينين، مما يسمح للحكومة باختبار النماذج ودعم الحماية قبل الإصدار على نطاق واسع؛ وعندما تحدث عمليات هروب من السجن أو أنماط إساءة الاستخدام، سيتم مشاركة المعلومات مع الحكومة بسرعة أكبر؛ وفي الوقت نفسه، سيتم استثمار فرق مخصصة وقوة حاسوبية للمشاركة في تقييم وأبحاث أمن الذكاء الاصطناعي.

وهذا يعني أن عملية إصدار نماذج الذكاء الاصطناعي المتطورة آخذة في التغير.

في الماضي، كان إصدار النموذج يعتمد بشكل أساسي على إيقاع منتج الشركة: التدريب والتقييم واختبار الفريق الأحمر والإطلاق. بعد حادثة Fable 5، على الأقل في الاتجاهات عالية المخاطر مثل الأمن السيبراني، قد تشتمل عملية الإصدار على طبقة إضافية من التقييم الحكومي المسبق للإصدار ومشاركة المعلومات والتفاوض بشأن المخاطر.

بالنسبة للمستخدمين، يعد استئناف Fable 5 خبرًا جيدًا؛ ولكن بالنسبة للعملاء من الشركات، فقد ترك هذا الحادث تذكيراً أكثر واقعية: إن توفر النماذج المتطورة لا يعتمد على التكنولوجيا والسعر فحسب، بل وأيضاً على حالة السياسة. حتى لو تم إصدار النموذج، فقد يتم تعليقه فجأة بسبب نزاعات تتعلق بالسلامة ثم يتم استئنافه من خلال الحماية الإضافية والتفاوض والاختبار الحكومي.

بالنسبة إلى Anthropic، فإن هذه المراجعة ليست مجرد تفسير لأسباب الشطب، ولكنها أيضًا نضال من أجل الحق في التعبير: تأمل الشركة أن يعتقد العالم الخارجي أن Fable 5 ليس نموذجًا خارج عن السيطرة، ولكنه حالة حدودية يتم التعامل معها بحذر مفرط؛ وفي الوقت نفسه، تأمل أيضًا في تحويل تركيز الصناعة من "ما إذا كان النموذج يمكن كسر حمايته" إلى "كيفية الحكم على مدى خطورة كسر الحماية".

قد تكون هذه علامة مهمة حقًا لهذا الإعلان. إعادة إطلاق Fable 5 هي النتيجة فقط. كيف يتم اختبار النماذج المتطورة، وإصدارها، وتدخل الحكومة في المستقبل، هي الأسئلة الجديدة التي خلفتها هذه العاصفة.