أعلنت شركة OpenAI عن نهج جديد لتعليم نماذج الذكاء الاصطناعي لتكون متسقة مع السياسات الأمنية، يسمى المكافآت المستندة إلى القواعد. وفقًا لليليان وينج، رئيس أنظمة الأمان في OpenAI، يمكن للمكافآت القائمة على القواعد (RBR) ضبط بعض النماذج تلقائيًا وتقصير الوقت اللازم لضمان أن النموذج لا ينتج نتائج غير متوقعة.

وقال وينج في مقابلة: "تقليديًا، نعتمد على التعلم المعزز من ردود الفعل البشرية كتدريب محاذاة افتراضي لتدريب النماذج، وهذا يعمل بشكل جيد". "لكن من الناحية العملية، فإن التحدي الذي نواجهه هو أننا نقضي الكثير من الوقت في مناقشة الفروق الدقيقة في السياسة، وبحلول نهاية الأمر، ربما تكون السياسة قد تطورت".

ذكر وينج التعلم المعزز من ردود الفعل البشرية، والذي يتطلب من البشر تحفيز النموذج وتقييم إجابات النموذج بناءً على الدقة أو النسخة المفضلة لديهم. إذا استجاب النموذج بطريقة لا ينبغي لها - على سبيل المثال، أن يبدو ودودًا أو يرفض الإجابة على طلب "غير آمن"، مثل السؤال عن شيء خطير - فيمكن للمقيمين البشريين أيضًا تسجيل استجابته لمعرفة ما إذا كان يتبع السياسة.

قالت OpenAI إنه باستخدام RBR، تستخدم فرق الأمن والسياسة نموذجًا للذكاء الاصطناعي يسجل الاستجابات بناءً على مدى التزامهم بمجموعة القواعد التي أنشأها الفريق.

على سبيل المثال، أراد فريق تطوير نموذج أحد تطبيقات الصحة العقلية أن يكون نموذج الذكاء الاصطناعي قادرًا على رفض المطالبات غير الآمنة، ولكن بطريقة غير قضائية، مع تذكير المستخدمين أيضًا بطلب المساعدة إذا كانوا بحاجة إليها. كان عليهم إنشاء ثلاث قواعد للنموذج: أولاً، كان عليه رفض الطلبات؛ ثانيًا، يجب أن يبدو الأمر غير قضائي؛ وثالثًا، كانت هناك حاجة لاستخدام لغة مشجعة لحث المستخدمين على طلب المساعدة.

ينظر نموذج RBR إلى استجابات نموذج الصحة العقلية، ويربطها بثلاث قواعد أساسية، ويحدد ما إذا كانت تلك الاستجابات تلبي متطلبات القواعد. يقول وينج إن نتائج نماذج الاختبار باستخدام RBR قابلة للمقارنة بالتعلم المعزز الذي يقوده الإنسان.

وبطبيعة الحال، يعد ضمان استجابة نموذج الذكاء الاصطناعي ضمن معايير محددة أمرًا صعبًا، وعندما يفشل النموذج يمكن أن يكون الأمر مثيرًا للجدل. في فبراير، قالت جوجل إنها بالغت في تصحيح حدود توليد صور جيميني بعد أن استمر نموذج جيميني في رفض إنشاء صور للأشخاص البيض، وبدلاً من ذلك قام بإنشاء صور غير تاريخية.

"بالنسبة للعديد من الأشخاص، وأنا منهم، فإن فكرة أن يكون النموذج مسؤولاً عن سلامة نموذج آخر أمر مثير للقلق." لكن وينج قال إن RBR يقلل في الواقع من الذاتية، وهي مشكلة يواجهها المقيِّمون البشريون غالبًا. "حجتي المضادة هي أنه حتى لو كنت تعمل مع مدربين بشريين، فكلما كانت تعليماتك أكثر غموضًا، قلت جودة البيانات التي ستحصل عليها. إذا قلت أيها أكثر أمانًا للاختيار، فهذه ليست في الواقع تعليمات يمكن للأشخاص اتباعها لأن السلامة أمر شخصي، لذلك تقوم بتضييق نطاق التعليمات وفي النهاية، يتبقى لك نفس القواعد التي قدمناها في النموذج."

جادل OpenAI بأن RBR يمكن أن يقلل من الرقابة البشرية ويثير الاعتبارات الأخلاقية، بما في ذلك احتمال زيادة التحيز في النماذج. وقالت الشركة في منشور على مدونتها: "يجب على الباحثين تصميم RBR بعناية لضمان العدالة والدقة، والنظر في استخدام RBR بالتزامن مع التعليقات البشرية".

بالنسبة للمهام ذات الطبيعة الذاتية، مثل الكتابة أو أي مهمة إبداعية، قد يواجه RBR صعوبة.

بدأت OpenAI في استكشاف أساليب RBR عند تطوير GPT-4، لكن RBR تطورت بشكل كبير منذ ذلك الحين.

لقد كان التزام OpenAI الأمني ​​موضع تساؤل دائمًا. في مارس من هذا العام، نشر جان لايكي، الباحث السابق ورئيس فريق Superalignment بالشركة، منشورًا ينتقد فيه الشركة، قائلًا إنه "تم استبدال ثقافة وعمليات السلامة بمنتجات مبهرجة". كما استقال المؤسس المشارك وكبير العلماء إيليا سوتسكيفر، الذي شارك في قيادة فريق Superalignment مع Leike، من OpenAI. بدأت Sutskever منذ ذلك الحين شركة جديدة تركز على أنظمة الذكاء الاصطناعي الآمنة.

يتعلم أكثر:

https://openai.com/index/improving-model-safety-behavior-with-rule-based-rewards/