أصدرت Anthropic رسميًا أحدث طراز لها، Fable، للجمهور يوم الثلاثاء، واصفة إياه بأنه "نسخة عامة ومقيدة" من نموذج الأمن السيبراني الداخلي المتطور Mythos، لكن المنتج سرعان ما أثار الجدل في دوائر الأمن السيبراني. اشتكى العديد من الباحثين والممارسين الأمنيين على المنصات والمجتمعات الاجتماعية من أن حواجز الحماية الأمنية المدمجة في Fable كانت صارمة للغاية ولا يمكن استخدامها في أي عمل فعلي يتعلق بأمن الشبكة.

وفقًا لتعليقات الباحثين، ترفض Fable "أي طلبات تتعلق بالأمن السيبراني ولو عن بعد"، بما في ذلك حتى المهام التي تبدو غير ضارة مثل المساعدة في قراءة منشور مدونة. وفقًا للباحثة فالنتينا "تشومبي" بالميوتي، التي تعمل الآن في شركة IBM X-Force، فإن Fable تنهي المحادثة ببساطة وتشير إلى أن آلياتها الأمنية قد حددت الرسالة على أنها تتضمن موضوعات تتعلق بالأمن السيبراني أو البيولوجي. تم تصميم حواجز الحماية هذه لمنع استخدام النماذج لتطوير برامج ضارة أو مهاجمة أو إتلاف أنظمة برمجية، وكذلك للحد من إساءة استخدامها في المجال البيولوجي للمساعدة في تطوير الأسلحة البيولوجية.

عندما أطلقت Anthropic Mythos في أبريل من هذا العام، اختارت فتحه لعدد صغير فقط من الشركات والمؤسسات من خلال برنامج يسمى "Project Glasswing" بهدف استخدام هذا النموذج للمساعدة في حماية البرامج والبنية التحتية الحيوية. في الأسبوع الماضي، أعلنت شركة Anthropic أنها ستوسع نطاق استخدام Mythos ليشمل مئات المؤسسات في 15 دولة، مما يزيد من تعزيز تنفيذ هذا النوع من نموذج الأمان عالي القدرة في الصناعات الرئيسية. ومع ذلك، بعد فتح Fable للجمهور، أصبحت استراتيجية الأمان الخاصة بها "الإصدار المنخفض" موضع تساؤل قوي بين المستخدمين المحترفين. اعتقد الكثير من الناس أن هناك فجوة كبيرة بين التجربة الفعلية والدعاية الرسمية.

قال مات سويش، وهو خبير مخضرم في مجال الأمن السيبراني، لـ TechCrunch، إن Fable كانت سريعة جدًا في تحديد ما إذا كان الطلب متعلقًا بالأمن السيبراني. على سبيل المثال، قال إنه إذا طلب المستخدم "كتابة تعليمات برمجية آمنة"، فسوف تميل Fable إلى اعتبار ذلك بمثابة عمل يتعلق بأمن الشبكة بدلاً من توجيه أفضل ممارسات هندسة البرمجيات، وبالتالي تشغيل آلية الرجوع إلى إصدار أقدم بشكل مباشر. بمجرد تشغيل حاجز الحماية، ستعود Fable تلقائيًا إلى Claude Opus 4.8 الأقل قدرة لمواصلة المحادثة. يعتقد Suiche أن منطق الحكم في Fable يبدو أنه يعتمد بشكل كبير على الكلمات الرئيسية. "طالما أن الكلمات تقع في المجال الدلالي لـ "أمن الشبكة"، فيمكن للنظام الأمني ​​اعتراضها بسهولة."

على الرغم من ذلك، أعرب Suiche أيضًا عن فهم معين للإعدادات الصارمة في المرحلة الحالية، معتقدًا أنه في هذه المرحلة المبكرة، يفرض المصنعون عتبات أمان أكثر تحفظًا على النماذج ويكونون أكثر أمانًا في التحكم في المخاطر. ويتوقع أن يتم تحسين وضبط حواجز الحماية هذه باستمرار مع تعميق Anthropic لتعاونها مع جيل جديد من شركات الأمن السيبراني. ومن وجهة نظره، فإن "حظر المزيد" أولاً ثم تخفيف القيود تدريجياً هو المسار الأكثر قبولاً بدلاً من الاسترخاء أكثر من اللازم في البداية، مما يتسبب في خروج خطر إساءة الاستخدام عن نطاق السيطرة.

الخرافة ليست وحدها في عدم رضاه. واشتكى باحث آخر على المنصة الاجتماعية من أنه "حتى طلب مراجعة الكود سيؤدي إلى تفعيل حاجز السلامة". شارك بعض المستخدمين تجاربهم في مجتمع Reddit المرتبط بـ Claude، قائلين إن Fable "يرفض الجميع تقريبًا" طلبات التدقيق الأمني، وتحليلات الثغرات الأمنية، وما إلى ذلك، مما يؤثر بشكل خطير على فائدتها في البيئات المهنية. اعتبارًا من وقت كتابة المقالة، لم تستجب Anthropic علنًا للتعليقات.

بالإضافة إلى آلية الدرابزين التلقائية داخل النموذج، أنشأت Anthropic أيضًا عملية قبول إضافية لممارسي الأمن السيبراني - "برنامج التحقق السيبراني". يمكن فقط للمستخدمين الذين اجتازوا البرنامج استخدام Claude لعمل أمان الشبكة في ظل ظروف أقل تقييدًا. وبالمثل، أطلقت OpenAI مشروعًا يسمى "Trusted Access for Cyber" لفتح المزيد من القدرات النموذجية لممارسات الأمن السيبراني المتوافقة. تعكس هذه الممارسات أنه في حين تعمل الشركات النموذجية المتطورة على تعزيز أمن الشبكات المدعومة بالذكاء الاصطناعي، فإنها لا تزال تحاول الموازنة بين إطلاق القدرات ومخاطر إساءة الاستخدام من خلال الوسائل المزدوجة لأنظمة المراجعة وحواجز الحماية التقنية.