القفزة الكبيرة التالية إلى الأمام للنماذج الكبيرة؟ "الاختراق الجديد" لـ OpenAI: Universal Verifier

نظرًا للترقب الكبير للجيل القادم من النموذج الكبير GPT-5، ظهرت تقنية جديدة تسمى "Universal Verifier"، لتكشف عن "السلاح السري" لـ OpenAI والذي يمكن استخدامه لتوسيع الفجوة التنافسية. قد يؤثر برنامج "التحقق العالمي" الخاص بشركة OpenAI بشكل مباشر على القدرة التنافسية لنموذج GPT-5 في السوق. في 4 أغسطس، ذكرت وسائل الإعلام التكنولوجية The Information، نقلًا عن أشخاص مطلعين على الأمر، أن هذه التكنولوجيا قد تم استخدامها في عملية تطوير GPT-5.

لقد تم تشبيه الآلية الأساسية لهذه التكنولوجيا بـ "لعبة التحقق". باختصار، فهو يسمح لأحد نماذج الذكاء الاصطناعي بلعب دور "المتحقق" للتحقق من الإجابات الناتجة عن نموذج "المثبت" الآخر والحكم عليها. من خلال هذه المواجهة الداخلية وردود الفعل، يتم تحسين جودة مخرجات النموذج بشكل منهجي. تهدف هذه العملية الآلية إلى حل عنق الزجاجة في التعلم المعزز (RL) الذي يصعب التحقق منه في المجالات الذاتية مثل الكتابة الإبداعية أو المجالات المعقدة مثل البراهين الرياضية.

أكد الباحثون الداخليون في OpenAI بشكل غير مباشر فعالية الأساليب ذات الصلة على منصة التواصل الاجتماعي X. وقال الباحث نعوم براون إن التقنيات "عامة" وتسمح للنماذج الكبيرة "بأداء أفضل في المهام التي يصعب التحقق منها". يشير هذا أيضًا إلى أن OpenAI تحاول التغلب على نقطة الضعف الأساسية في التطبيق التجاري للذكاء الاصطناعي، ألا وهي المصداقية.

لعبة "المحقق".

تم توضيح التفاصيل الفنية لـ "أداة التحقق العالمي" لأول مرة في ورقة بحثية بعنوان "لعبة التحقق تعمل على تحسين إمكانية قراءة نماذج اللغات الكبيرة" التي نشرتها OpenAI في يوليو 2024. تبني هذه الطريقة إطارًا رائعًا لتدريب الخصومة الداخلية، خلفه نموذج "لعبة التحقق".

يشبه دوري "المثبت والمتحقق" في هذا الإطار تقسيم "شخصيتين" داخل النموذج:

أثناء عملية التدريب، يعمل نموذج "المتحقق" بشكل مستمر على تحسين قدراته على "التزييف" من خلال تعلم التمييز بين الحلول الصحيحة وغير الصحيحة. وفي الوقت نفسه، يتم تحسين نموذج "المثبت" استنادًا إلى تعليقات "المدقق" ويتعلم كيفية إنشاء إجابات صحيحة تكون أكثر إقناعًا ويصعب تزويرها. تنص الورقة بوضوح على أن أداة التحقق صغيرة بما يكفي للنشر على نطاق واسع و"مصممة لعمليات نشر GPT المستقبلية".

وقال أحد الباحثين لموقع The Information إن هذه الآلية تشبه شبكات الخصومة التوليدية (GANs)، التي تستخدم "أداة التمييز" لتمييز البيانات الحقيقية عن البيانات التي يولدها الذكاء الاصطناعي، وبالتالي تجبر "المولد" على مواصلة التحسين.

"الإرث الفني" لفريق Super Alignment؟

ومن الجدير بالذكر أن هذه التكنولوجيا الرئيسية يشار إليها باسم "الإرث التقني" لفريق "Super Alignment" السابق في OpenAI. من بين المؤلفين الستة الذين نشروا الورقة البحثية "لعبة التحقق من الصحة تعمل على تحسين إمكانية قراءة نماذج اللغات الكبيرة"، لم يبق حاليًا سوى ينينج تشين ونات ماكاليس في OpenAI.

يُذكر أن الفريق كان بقيادة المؤسس المشارك للشركة إيليا سوتسكيفر وتم تأسيسه لدراسة كيفية التحكم في الذكاء الخارق الذي قد يظهر في المستقبل. ومع ذلك، تم حلها بسرعة بعد مغادرة سوتسكيفر وشخص آخر مسؤول، جان لايكي.

وهذا يضيف طبقة من السياق الديناميكي المعقد داخل الشركة إلى تطبيق هذه التكنولوجيا. على الرغم من أن الفريق لم يعد موجودًا، فمن الواضح أنه تم دمج نتائجه الفنية في مسار تطوير المنتج الأساسي لـ OpenAI لحل مشكلات المحاذاة والموثوقية للنموذج الحالي.

توقعات GPT-5 عالية

يرتبط هذا التقدم التكنولوجي ارتباطًا مباشرًا بـ GPT-5 الذي طال انتظاره. تُظهر المعلومات الموجودة على وسائل التواصل الاجتماعي أن بعض الأشخاص يعتقدون أن نموذج نظام النقد الذاتي الذي تم تجريبه في الوظيفة المساعدة لرمز GPT-4 قد تم الآن دمجه رسميًا في "النموذج الرئيسي التالي" لـ GPT-5. وقد أدى هذا إلى رفع التوقعات الخارجية لـ GPT-5 إلى مستوى جديد.

قام سام ألتمان، الرئيس التنفيذي لشركة OpenAI، بنفسه بالترويج لـGPT-5 في بث صوتي حديث، قائلًا إنه "أذكى منا في كل جانب تقريبًا"، مما يزيد من توقعات السوق. وفي الوقت نفسه، اعتمد المنافسون بما في ذلك xAI وGoogle أيضًا التعلم المعزز كمسار تقني رئيسي لتحسين قدرات النموذج وضاعفوا استثماراتهم. وفي هذا السياق، لا يعد "أداة التحقق العالمي" ابتكارًا تقنيًا لشركة OpenAI فحسب، بل يعتبر أيضًا أحد أصولها الأساسية للحفاظ على تفوقها الرائد في منافسة الذكاء الاصطناعي الشرسة. سيتم اختبار تأثيره النهائي في السوق بعد إصدار GPT-5.

الاختراقات والتحديات تتعايش

القيمة الأكثر أهمية لـ "المدقق العالمي" هي "عالميته". وفقًا للتقارير، لم تساعد هذه التكنولوجيا نماذج OpenAI على إحراز تقدم في مجالات مثل برمجة البرمجيات حيث يمكن بسهولة التحقق من صحة الإجابات أو عدم صحتها فحسب، ولكنها أظهرت أيضًا تحسينات في مجالات أكثر ذاتية مثل الكتابة الإبداعية. وهذا يعني أن قدرات الذكاء الاصطناعي تخترق المجال الموضوعي إلى المجال الذاتي.

على سبيل المثال، في البراهين الرياضية المعقدة، يمكن للمدقق التأكد من أن كل خطوة تتبع قواعد المنطق الرسمي ومتسقة مع بعضها البعض، بدلاً من مجرد التحقق من الإجابة النهائية. وفقًا للتقارير، من المرجح أن تستفيد النتائج الأخيرة التي حققها نموذج OpenAI في مسابقة أولمبياد الرياضيات الدولية من التقنيات بما في ذلك "المتحقق العالمي". قال ألكسندر وي، أحد كبار الباحثين في OpenAI، على منصة التواصل الاجتماعي X، إن طريقة التعلم المعزز التي تستخدمها الشركة هي "لأغراض عامة"، مما يشير إلى أنه يمكنها التحقق من جودة الإجابات في فئات أكثر ذاتية.

ومع ذلك، فإن الطريق إلى القفزات التكنولوجية ليس سهلا. وفقًا لتقارير إعلامية سابقة، يواجه البحث والتطوير في GPT-5 تحديات شديدة، بما في ذلك الندرة المتزايدة لبيانات التدريب عالية الجودة وانخفاض فوائد تحسين الأداء الناتجة عن التدريب المسبق على نطاق واسع. بالإضافة إلى ذلك، لا تزال مشكلة ضعف الأداء بعد نشر النموذج من الاختبار الداخلي إلى النشر العام موجودة. على سبيل المثال، شهد النموذج "o3" الذي كان أداؤه جيدًا في الاختبار الداخلي انخفاضًا كبيرًا في الأداء في التطبيقات الفعلية. وقد أدت هذه العوامل إلى عدم اليقين بشأن ما إذا كان GPT-5 يمكنه في النهاية تحقيق الاختراق المتوقع.