يمنح فريق الأمن المعزز في OpenAI مجلس إدارته سلطة استخدام حق النقض ضد Dangerous AI

· تتم إدارة النماذج قيد الإنتاج من قبل فريق "أنظمة السلامة". النماذج الرائدة في مجال التطوير لديها فرق "جاهزية" تحدد وتقيس المخاطر قبل إصدار النموذج. ثم هناك فريق "Super Alignment"، الذي يعمل على المبادئ التوجيهية النظرية لنماذج "الذكاء الفائق". في 18 ديسمبر بالتوقيت المحلي، أعلنت شركة OpenAI على موقعها الرسمي على الإنترنت أنها تعمل على توسيع عمليات الأمن الداخلي الخاصة بها للدفاع ضد تهديد الذكاء الاصطناعي الضار. ستترأس "مجموعة استشارية أمنية" جديدة فريق التكنولوجيا وتقدم توصيات إلى القيادة، مع منح مجلس الإدارة حق النقض.

جذب هذا التحديث الانتباه إلى حد كبير لأن أحد أسباب إقالة سام ألتمان، الرئيس التنفيذي لشركة OpenAI، من قبل مجلس الإدارة يبدو أنه مرتبط بقضايا أمنية كبيرة الحجم. بعد فوضى الموظفين رفيعي المستوى، خسر اثنان من أعضاء مجلس إدارة OpenAI، إيليا سوتسكيفر وهيلين تونر، مقعديهما في مجلس الإدارة.

في المقال، تناقش OpenAI أحدث "إطار عمل الاستعداد"، وهي عملية OpenAI لتتبع المخاطر الكارثية وتقييمها والتنبؤ بها ومنعها من النماذج المتزايدة القوة. كيفية تحديد المخاطر الكارثية؟ قالت OpenAI: "نعني بالمخاطر الكارثية أي خطر قد يؤدي إلى خسائر اقتصادية بمئات المليارات من الدولارات أو يتسبب في إصابة خطيرة أو وفاة للعديد من الأشخاص - بما في ذلك، على سبيل المثال لا الحصر، المخاطر الوجودية."

ثلاث مجموعات من فرق الأمن تغطي أطر زمنية ومخاطر مختلفة.

ووفقا للمعلومات الموجودة على موقع OpenAI الرسمي، تتم إدارة النماذج قيد الإنتاج من قبل فريق "Security System". النماذج الرائدة في مجال التطوير لديها فرق "جاهزية" تحدد وتقيس المخاطر قبل إصدار النموذج. ثم هناك فريق "الاصطفاف الفائق"، الذي يعمل على مبادئ توجيهية نظرية لنماذج "فائقة الذكاء".

وسيقوم فريق OpenAI بتقييم كل نموذج على أساس أربع فئات من المخاطر: الأمن السيبراني، و"الإقناع" (أي التضليل)، واستقلالية النموذج (أي العمل من تلقاء نفسه)، والتهديدات الكيميائية والبيولوجية والإشعاعية والنووية، مثل القدرة على خلق مسببات الأمراض الجديدة.

تفترض OpenAI وسائل تخفيف مختلفة: على سبيل المثال، تحتفظ النماذج بتحفظات معقولة حول وصف عملية صنع النابالم أو القنابل الأنبوبية. بعد أخذ تدابير التخفيف المعروفة في الاعتبار، إذا كان النموذج لا يزال يتم تقييمه على أنه ينطوي على مخاطر "عالية"، فلن يتم نشره، وإذا كان النموذج يمثل أي مخاطر "حرجة"، فلن يتم تطويره بشكل أكبر.

والشخص الذي أنشأ النموذج ليس بالضرورة هو أفضل شخص لتقييم النموذج وتقديم التوصيات. ولهذا السبب، تقوم OpenAI بتشكيل "مجموعة استشارية أمنية متعددة الوظائف" والتي ستكون على المستوى الفني، وتقوم بمراجعة تقارير الباحثين وتقديم توصيات من منظور أعلى، على أمل اكتشاف بعض "المجهولات غير المعروفة" لها.

وتتطلب العملية إرسال تلك التوصيات إلى كل من مجلس الإدارة والقيادة، اللذين سيقرران ما إذا كان سيتم الاستمرار في العمليات أو إيقافها، ولكن سيكون مجلس الإدارة قادرًا على عكس تلك القرارات. نأمل أن يؤدي هذا إلى تجنب الموافقة على المنتجات أو العمليات عالية المخاطر دون علم مجلس الإدارة.

ومع ذلك، ما لا يزال يقلق العالم الخارجي هو أنه إذا قدمت لجنة الخبراء توصيات واتخذ الرئيس التنفيذي قرارات بناءً على تلك المعلومات، فهل سيشعر مجلس إدارة OpenAI الحالي حقًا بالقدرة على دحض هذه المعلومات وكبحها؟ وإذا فعلوا ذلك، فهل سيسمع الجمهور الخارجي عن ذلك؟ في الوقت الحاضر، وبصرف النظر عن التزام OpenAI بالتماس عمليات تدقيق مستقلة من طرف ثالث، لم يتم حل مشكلات الشفافية الخاصة بها فعليًا.

خمسة عناصر رئيسية لـ "إطار الاستعداد" الخاص بـ OpenAI:

1. التقييم والتسجيل

سنقوم بإجراء التقييمات ونقوم بتحديث "بطاقة الأداء" الخاصة بنموذجنا باستمرار. سنقوم بتقييم جميع النماذج الرائدة، بما في ذلك ضعف العمليات الحسابية الفعالة أثناء عمليات التدريب. سوف ندفع النموذج إلى أقصى حدوده. ستساعدنا هذه النتائج في تقييم مخاطر النماذج الرائدة وقياس فعالية أي تدابير تخفيف مقترحة. هدفنا هو اكتشاف جوانب معينة من انعدام الأمان للتخفيف من مخاطر التعرض بشكل فعال. لتتبع مستوى السلامة في نماذجنا، سنقوم بإصدار "بطاقات أداء" المخاطر وتقارير مفصلة.

ستقوم "بطاقة الأداء" بتقييم جميع النماذج المتطورة.

2. تحديد عتبات المخاطر

سوف نقوم بتحديد عتبات المخاطر التي تؤدي إلى اتخاذ التدابير الأمنية. لقد حددنا عتبات مستوى المخاطر بناءً على فئات التتبع الأولية التالية: الأمن السيبراني، والتهديدات الكيميائية والبيولوجية والإشعاعية والنووية، والإقناع، واستقلالية النموذج. نحدد أربعة مستويات للمخاطر الأمنية، ولا يمكن نشر سوى النماذج ذات درجة ما بعد التخفيف "متوسطة" أو أقل؛ ولا يمكن مواصلة تطوير سوى النماذج التي حصلت على درجة "مرتفعة" أو أقل بعد التخفيف. سنقوم أيضًا بتنفيذ إجراءات أمنية إضافية للنماذج ذات المخاطر العالية أو الشديدة (التخفيف المسبق).

مستوى المخاطر.

3. وضع هيكل تشغيلي جديد للإشراف على العمل الفني واتخاذ قرارات السلامة

سنقوم بإنشاء هيكل تشغيلي مع فريق متخصص للإشراف على العمل الفني والقرارات الأمنية. سيقود فريق الاستعداد العمل الفني لفحص حدود قدرات النماذج المتطورة وإجراء التقييمات وتجميع التقارير. يعد هذا العمل الفني أمرًا بالغ الأهمية لاتخاذ القرارات المتعلقة بتطوير نموذج أمان OpenAI ونشره. نحن نعمل على إنشاء مجموعة استشارية أمنية متعددة الوظائف لمراجعة جميع التقارير وإرسالها إلى كل من القيادة ومجلس الإدارة. في حين أن القيادة هي صانع القرار، فإن مجلس الإدارة لديه القدرة على إلغاء القرارات.

هيكل تشغيلي جديد للإشراف على العمل الفني واتخاذ قرارات السلامة.

4. زيادة الأمن والمساءلة الخارجية

وسوف نقوم بتطوير بروتوكولات لتحسين السلامة والمساءلة الخارجية. سيقوم فريق الاستعداد بإجراء تدريبات أمنية منتظمة لاختبار الضغط على أعمالنا وثقافتنا. يمكن أن تنشأ بعض المشكلات الأمنية بسرعة، لذلك لدينا القدرة على الإبلاغ عن المشكلات العاجلة للاستجابة السريعة. لقد اعتقدنا أنه سيكون من المفيد لهذا العمل تلقي تعليقات من أشخاص خارج OpenAI ونأمل أن تتم مراجعتها من قبل جهة خارجية مستقلة مؤهلة. سنستمر في جعل الآخرين يشكلون فرقًا حمراء ويقومون بتقييم نماذجنا، ونخطط لمشاركة التحديثات خارجيًا.

5. الحد من المخاطر الأمنية الأخرى المعروفة وغير المعروفة

وسنساعد في التخفيف من المخاطر الأمنية الأخرى المعروفة وغير المعروفة. سنعمل بشكل وثيق مع الأطراف الخارجية بالإضافة إلى الفرق الداخلية مثل أنظمة الأمان لتتبع الانتهاكات في العالم الحقيقي. سنعمل أيضًا مع Superalignment لتتبع المخاطر العاجلة لاختلال المحاذاة. نحن أيضًا رائدون في إجراء بحث جديد يقيس كيفية تطور المخاطر مع قياس النماذج للمساعدة في التنبؤ بالمخاطر في وقت مبكر، على غرار نجاحنا السابق مع قانون القياس. وأخيرًا، سنجري عملية مستمرة لمحاولة حل أي "مجهولات مجهولة" ناشئة.