على الرغم من تزايد الطلب على سلامة الذكاء الاصطناعي ومساءلته، فإن الاختبارات والمعايير الحالية قد لا تكون كافية، حسبما يشير تقرير جديد. تحظى نماذج الذكاء الاصطناعي التوليدية - النماذج التي يمكنها تحليل وإخراج النصوص والصور والموسيقى ومقاطع الفيديو وغيرها - باهتمام متزايد بسبب قابليتها للخطأ وسلوكها غير المتوقع بشكل عام. والآن، يقترح الجميع، من وكالات القطاع العام إلى شركات التكنولوجيا الكبرى، معايير جديدة لاختبار أمان هذه النماذج.
وفي نهاية العام الماضي، أنشأت الشركة الناشئة ScaleAI مختبرًا لتقييم مدى اتساق النماذج مع إرشادات السلامة. في هذا الشهر، أصدر المعهد الوطني للمعايير والتكنولوجيا (NIST) ومعهد سلامة الذكاء الاصطناعي في المملكة المتحدة أدوات مصممة لتقييم المخاطر النموذجية. لكن اختبارات وأساليب الكشف عن النماذج هذه قد لا تكون كافية.
أجرى معهد Ada Lovelace (ALI)، وهو منظمة بريطانية غير ربحية لأبحاث الذكاء الاصطناعي، دراسة أجريت مقابلات مع خبراء من المختبرات الأكاديمية والمجتمع المدني ونماذج الشركات المصنعة، واستعرضت الأبحاث الحديثة لتقييم سلامة الذكاء الاصطناعي. وجد المؤلفون المشاركون أنه على الرغم من أن التقييمات الحالية قد تكون مفيدة، إلا أنها ليست شاملة، ويمكن التلاعب بها بسهولة، ولا توضح بالضرورة كيفية أداء النماذج في سيناريوهات العالم الحقيقي.
وقال إليوت جونز، كبير الباحثين في ALI والمؤلف المشارك للتقرير: "سواء كان الأمر يتعلق بالهواتف الذكية أو العقاقير الطبية أو السيارات، فنحن جميعًا نريد أن تكون المنتجات التي نستخدمها آمنة وموثوقة؛ وفي هذه المجالات، تخضع المنتجات لاختبارات صارمة للتأكد من أنها آمنة قبل نشرها". "يهدف بحثنا إلى دراسة القيود المفروضة على أساليب تقييم سلامة الذكاء الاصطناعي الحالية، وتقييم كيفية استخدام التقييمات حاليًا، واستكشاف استخدامها كأداة لصانعي السياسات والمنظمين."
بدأ المؤلفون المشاركون في الدراسة بمسح الأدبيات الأكاديمية لفهم المخاطر والمخاطر التي تشكلها نماذج اليوم، بالإضافة إلى الوضع الحالي لتقييمات نماذج الذكاء الاصطناعي الحالية. ثم أجروا مقابلات مع 16 خبيرًا، من بينهم أربعة موظفين في شركات تكنولوجيا لم يذكر اسمها تعمل على تطوير أنظمة الذكاء الاصطناعي التوليدية.
ووجدت الدراسة خلافات جدية داخل صناعة الذكاء الاصطناعي حول أفضل الأساليب ومعايير التصنيف لتقييم النماذج.
اختبرت بعض التقييمات فقط مدى جودة أداء النموذج مقارنة بالمعايير المعملية، دون اختبار التأثير الذي قد يحدثه النموذج على المستخدمين في العالم الحقيقي. هناك أيضًا تقييمات باستخدام اختبارات تم تطويرها لأغراض البحث بدلاً من تقييم نماذج الإنتاج، لكن البائعين يصرون على استخدام هذه النماذج في الإنتاج.
وأشار الخبراء الذين تم الاستشهاد بهم في الدراسة إلى أنه من الصعب استنتاج أداء النموذج من النتائج المعيارية، وليس من الواضح حتى ما إذا كان المعيار يشير إلى أن النموذج يمتلك قدرات محددة. على سبيل المثال، قد يحقق النموذج أداءً جيدًا في امتحان نقابة المحامين، لكن هذا لا يعني أنه يمكنه حل المزيد من الألغاز القانونية المفتوحة.
ويشير الخبراء أيضًا إلى مشكلة تلوث البيانات، حيث تبالغ النتائج المرجعية في تقدير أداء النموذج إذا تم تدريبه على نفس البيانات مثل بيانات الاختبار. يقول الخبراء أنه في كثير من الحالات، تختار الشركات المعايير ليس لأنها أفضل أداة للتقييم، ولكن من أجل الراحة وسهولة الاستخدام.
قال ماهي هاردالوباس، الباحث في ALI والمؤلف المشارك للدراسة: "من الممكن أن يتم التلاعب بالمعايير من قبل المطورين، الذين قد يقومون بتدريب النماذج على نفس مجموعات البيانات المستخدمة لتقييم النماذج، أي ما يعادل رؤية ورقة الاختبار قبل الاختبار، أو اختيار استراتيجي لطريقة التقييم التي سيتم استخدامها. إن إصدار نموذج التقييم مهم أيضًا. قد تؤدي التغييرات الصغيرة إلى تغييرات غير متوقعة في السلوك وقد تتجاوز ميزات الأمان المضمنة."
كشفت أبحاث علي أيضًا عن مشكلة "الفريق الأحمر". "الفريق الأحمر" هو ممارسة قيام أفراد أو مجموعات "باختراق" نموذج للعثور على نقاط الضعف والعيوب. وتستخدم العديد من الشركات، بما في ذلك شركات الذكاء الاصطناعي الناشئة OpenAI وAnthropic، نماذج تقييم "الفريق الأحمر"، ولكن هناك عدد قليل من المعايير المقبولة لـ "الفريق الأحمر"، مما يجعل من الصعب تقييم فعالية جهد معين.
أخبر الخبراء المؤلفين المشاركين في الدراسة أنه من الصعب العثور على أشخاص يتمتعون بالمهارات والخبرة اللازمة لبناء فرق حمراء، والطبيعة اليدوية للفرق الحمراء تجعلها مكلفة وغير شاكرة، مما يشكل عائقًا أمام المنظمات الصغيرة التي لا تملك الموارد اللازمة.
يعد الضغط من أجل إطلاق النماذج بشكل أسرع، والإحجام عن إجراء اختبارات قد تكون إشكالية قبل الإصدار، من بين الأسباب الرئيسية لضعف تقييم الذكاء الاصطناعي.
وقال جونز: "لقد تحدثنا مع أحد الأشخاص الذين عملوا في شركة قامت بتطوير النموذج الأساسي، ورأى أن هناك ضغطًا أكبر داخل الشركة لإطلاق النماذج بسرعة، مما جعل من الصعب إعادة اختراع العجلة وإجراء تقييم جدي". "تطلق مختبرات الذكاء الاصطناعي الكبرى نماذج بشكل أسرع مما يمكنها أو يستطيع المجتمع ضمان أن النماذج آمنة وموثوقة."
في بحث ALI، وصف أحد المشاركين تقييم النماذج الأمنية بأنه مشكلة "شائكة". إذن ما هو الأمل الذي يحمله هذا القطاع - وأولئك الذين ينظمونه - في إيجاد حل؟ يعتقد الباحث ماهي هاردالوباس أن هناك طريقًا للمضي قدمًا ولكنه يتطلب مشاركة أكبر من وكالات القطاع العام. وقال: "يجب على المنظمين وصانعي السياسات أن يوضحوا بوضوح ما يريدون من التقييمات. وفي الوقت نفسه، يجب أن يتحلى مجتمع التقييم بالشفافية بشأن القيود والإمكانات الحالية للتقييمات".
وأوصى هاردالوباس الحكومات بتمكين مشاركة عامة أكبر في تطوير التقييمات واتخاذ خطوات لدعم "نظام بيئي" لاختبارات الطرف الثالث، بما في ذلك خطط لضمان الوصول المنتظم إلى النماذج ومجموعات البيانات المطلوبة.
يعتقد جونز أنه قد يكون من الضروري إجراء تقييمات "خاصة بالسياق" تتجاوز اختبار كيفية استجابة النموذج للمطالبات، ولكن بدلاً من ذلك تنظر إلى أنواع المستخدمين التي قد يؤثر عليها النموذج (مثل الأشخاص من خلفية أو جنس أو عرق معين) والطرق التي قد تؤدي بها الهجمات على النموذج إلى تقويض الضمانات.
وأضافت: "سيتطلب ذلك الاستثمار في العلوم الأساسية للتقييمات لتطوير تقييمات أكثر قوة وقابلة للتكرار بناءً على فهم كيفية عمل نماذج الذكاء الاصطناعي".
لكن النموذج قد لا يكون مضمونًا أبدًا ليكون آمنًا. وقال هاردالوباس: "كما أشار آخرون، فإن "الأمن" ليس من خصائص النموذج". "يتطلب تحديد ما إذا كان النموذج "آمنًا" فهم السياق الذي سيتم استخدامه فيه، ومن سيتم بيعه أو الحصول عليه منه، وما إذا كانت الضمانات الحالية كافية للتخفيف من تلك المخاطر. ويمكن أن يكون تقييم النموذج الأساسي بمثابة دور استكشافي لتحديد المخاطر المحتملة، لكنه لا يضمن أن النموذج آمن، ناهيك عن كونه "آمنًا تمامًا". لقد شعر العديد ممن أجريت معهم المقابلات أن التقييمات لا يمكن أن تثبت أن النموذج آمن، بل فقط أنه ليس كذلك." "