هل سيأتي GPT-5؟ تم تصميم OpenAI لتسريع تدريب النماذج الكبيرة متعددة الوسائط Gobi

في ساحة معركة النماذج الكبيرة متعددة الوسائط، سمع بعض الناس عنها بالفعل. وفقًا لتقارير وسائل الإعلام الأجنبية، يبدو أن نموذج Gobi الجديد متعدد الوسائط من OpenAI قيد الإعداد. يبدو أن المواجهة بين Google وOpenAI أصبحت وشيكة. مع اقتراب هذا الخريف، دخلت معركة النماذج متعددة الوسائط بين Google وOpenAI أيضًا مرحلة شرسة.

في الأسبوع الماضي فقط، فتحت Google إمكانيات نموذجها الكبير متعدد الوسائط Gemini لبعض الشركات الخارجية.

وبطبيعة الحال، لن يقف OpenAI ساكناً وينتظر الموت. إنهم يتسابقون مع الزمن لدمج وظائف متعددة الوسائط في GPT-4، ويسعون جاهدين لإطلاق نموذج كبير متعدد الوسائط بوظائف مشابهة لـ Gemini، والقضاء على Google بضربة واحدة.

لقد تم عرض الوظيفة الأسطورية متعددة الوسائط في مؤتمر GPT-4 التابع لـ OpenAI والذي صدم العالم في مارس من هذا العام ——

ارسم رسمًا تخطيطيًا على الورق، والتقط صورة وأرسلها إلى GPT-4، وقل "اصنع لي موقع ويب بهذا التصميم"، وسيكتب رمز صفحة الويب على الفور.

أظهر Boss Greg Brockman شخصيًا على الإنترنت

ولكن بعد ذلك، بدا تعدد الوسائط وكأنه ومضة في المقلاة، ولم يسبق لأحد أن رأى وظيفة فيزيائية منتجة.

إذًا، هل بدأت الحرب متعددة الوسائط بين Google وOpenAI أخيرًا؟

في نضالها ضد Google، تسارع شركة OpenAI إلى إطلاق نماذج كبيرة متعددة الوسائط

وفي مواجهة الشائعات التي تقول إن جوجل ستقضي على هذا القاتل الكبير، فمن المؤكد أن OpenAI لن تظل غير مبالية.

وفقًا لوسائل الإعلام الأجنبية The Information، فإن نموذجًا كبيرًا جديدًا متعدد الوسائط يسمى Gobi يخضع بالفعل لإعداد مكثف.

تخطط OpenAI لإطلاق LLM متعدد الوسائط قبل إصدار Gemini، مما يؤدي إلى هزيمة Google تمامًا.

جريج بروكمان من OpenAI ضد ديميس هاسابيس من Google

في الواقع، بعد إطلاق معاينة لميزة GPT-4 متعددة الوسائط في مارس، أطلقت OpenAI هذه الميزة لشركة تدعى BeMyEyes، لكنها لم توفرها لشركات أخرى.

وكما يتضح من الاسم، تعمل هذه الشركة على تطوير تقنية تسمح للأشخاص المكفوفين أو ضعاف البصر بالرؤية بشكل أكثر وضوحًا.

في الآونة الأخيرة، تخطط OpenAI لطرح ميزة تسمى GPT-Vision على نطاق أوسع.

لماذا استغرق OpenAI وقتًا طويلاً؟

السبب الرئيسي هو أنهم يشعرون بالقلق من أن الوظائف المرئية الجديدة سيتم استخدامها من قبل المجرمين، مثل انتحال شخصية البشر عن طريق كسر رموز التحقق تلقائيًا، أو تتبع البشر من خلال التعرف على الوجه.

ومع ذلك، يبدو أن مهندسي OpenAI قد نجحوا في حل هذه المخاطر الأمنية القانونية.

وبالمثل، قال متحدث باسم جوجل أيضًا: اتخذت جوجل بعض الإجراءات لمنع إساءة استخدام جيميني.

وفي تعهد قدمته في يوليو/تموز الماضي، تعهدت جوجل بتطوير الذكاء الاصطناعي المسؤول في جميع منتجاتها.

هل يمكن لجوبي أن يصبح GPT-5؟

بعد GPT-Vision، من المرجح أن تطلق OpenAI نموذجًا كبيرًا متعدد الوسائط أكثر قوة، يحمل الاسم الرمزي Gobi.

على عكس GPT-4، تم تصميم Gobi على نموذج متعدد الوسائط منذ البداية.

إذًا، هل جوبي هو GPT-5 الأسطوري؟

في الوقت الراهن، نحن لا نعرف. لا توجد معلومات محددة عن المدى الذي وصل إليه جوبي في التدريب.

في أوائل سبتمبر، أطلق مصطفى سليمان، المؤسس المشارك لشركة DeepMind والرئيس التنفيذي الحالي لشركة InflectionAI، قنبلة في مقابلة - وفقًا لتكهناته، كانت OpenAI تدرب GPT-5 سرًا.

يعتقد سليمان أن سام ألتمان ربما لم يكن يقول الحقيقة عندما قال مؤخرًا إنهم لم يقوموا بتدريب GPT-5. (الكلمات الأصلية هي: هيا. لا أعرف. أعتقد أنه من الأفضل أن نكون جميعًا صريحين بشأن هذا الأمر.)

هنا، وفقًا للأشخاص الذين جربوا برج الجوزاء، سوف ينتج برج الجوزاء هلوسة أقل من النماذج الموجودة. الأسباب مفصلة أدناه.

باختصار، يمكن القول إن الحرب النموذجية متعددة الوسائط بين Google وOpenAI هي نسخة الذكاء الاصطناعي من المواجهة بين iPhone وAndroid.

أحدهما هو عملاق وادي السيليكون الذي سيطر على مجال الذكاء الاصطناعي لسنوات عديدة، والآخر هو شركة ناشئة في مجال الذكاء الاصطناعي من الدرجة الأولى لا مثيل لها في الأضواء. ما مدى اتساع الفجوة بين الاثنين، الجميع ينتظر بفارغ الصبر.

جوجل تختبر برج الجوزاء سرًا

ومن ناحية أخرى، بدأت جوجل أيضًا في دعوة بعض المطورين الخارجيين لتسريع اختبار الجيل القادم من النموذج الكبير متعدد الوسائط Gemini.

في الأسبوع الماضي، ذكرت The Information حصريًا أن Gemini قد يكون جاهزًا لإصدار تجريبي قريبًا وسيتم دمجه في خدمات مثل Google Cloud Vertex AI.

في مؤتمر مطوري Google I/O لهذا العام، قدم Pichai علنًا Gemini، وهو نموذج متعدد الوسائط وأداة تكامل فعالة وواجهة برمجة التطبيقات (API).

ومن أجل العمل معًا لتحقيق أشياء كبيرة، قامت Google أيضًا بدمج Google Brain مع DeepMind Labs.

ويقال إن ما لا يقل عن 20 مديرًا تنفيذيًا شاركوا في البحث والتطوير الخاص بـGemini، وعلى رأسهم ديميس هاسابيس، مؤسس DeepMind، وشارك في البحث والتطوير سيرجي برين، مؤسس Google.

هناك أيضًا المئات من الموظفين في Google DeepMind، بما في ذلك مدير Google Brain السابق جيف دين وآخرين.

قال أحد الأشخاص الذين اختبروه إن نموذج Gemini يتمتع بميزة على GPT-4 بطريقة واحدة على الأقل: بالإضافة إلى المعلومات المتاحة للجمهور على الويب، يستفيد النموذج أيضًا من كمية كبيرة من بيانات الملكية من منتجات Google الاستهلاكية (البحث، YouTube).

لذلك، يجب أن يكون Gemini دقيقًا بشكل خاص في فهم نية المستخدم لاستعلام معين، ويبدو أنه ينتج عددًا أقل من الإجابات غير الصحيحة، أي الهلوسة.

وفقًا لتقارير سابقة من محللي SemiAnalogy، بدأ نموذج Gemini الكبير من الجيل التالي من Google التدريب على TPUv5Pod الجديد، مع قوة حوسبة تصل إلى ~1e26FLOPS، وهو ما يزيد بخمس مرات عن قوة الحوسبة لـ GPT-4.

بالإضافة إلى ذلك، تحتوي قاعدة بيانات Gemini التدريبية على 93.6 مليار دقيقة من ترجمات الفيديو على Youtube، ويبلغ إجمالي حجم مجموعة البيانات ضعف حجم GPT-4 تقريبًا.

ويقال إن النموذج الكبير من الجيل التالي من Google يتكون أيضًا من مقاييس متعددة وقد يستخدم بنية وزارة التعليم وتقنية أخذ العينات التأملية.

يتم إنشاء الرمز المميز مسبقًا بواسطة النموذج الصغير وتمريره إلى النموذج الكبير للتقييم لتحسين سرعة التفكير الإجمالية للنموذج.

وقال هاسابيس، رئيس Google DeepMind، في مقابلة، إنه من المتوقع أن تبلغ تكلفة مشروع Gemini عشرات إلى مئات الملايين من الدولارات، وهو ما يعادل تكلفة تطوير GPT-4.

ستقوم Gemini بدمج التكنولوجيا المستخدمة في AlphaGo، والتي ستمنح النظام قدرات جديدة في التخطيط وحل المشكلات.

يمكن القول أن Gemini يجمع بعض مزايا نظام AlphaGo مع القدرات اللغوية المذهلة لنماذج اللغات الكبيرة. ولدينا بعض الابتكارات الأخرى المثيرة للاهتمام.

التكنولوجيا وراء AlphaGo هي التعلم المعزز، وهي تقنية رائدة من قبل DeepMind.

يتفاعل وكلاء RL مع البيئة بمرور الوقت، ويتعلمون السياسات من خلال التجربة والخطأ، وبالتالي تحقيق أقصى قدر من المكافآت التراكمية على المدى الطويل

ومن خلال التعلم المعزز، يمكن للذكاء الاصطناعي تعديل أدائه من خلال التجربة والخطأ وتلقي ردود الفعل، وبالتالي تعلم كيفية التعامل مع المشكلات الصعبة، مثل اختيار كيفية اتخاذ الخطوة التالية في لعبة Go أو ألعاب الفيديو.

بالإضافة إلى ذلك، يستخدم AlphaGo أيضًا طريقة Monte Carlo Tree Search (MCTS) لاستكشاف وتذكر جميع التحركات الممكنة على اللوحة.

بالمقارنة مع النماذج الحالية، سيعمل Gemini على تحسين قدرات إنشاء الأكواد لمطوري البرامج بشكل كبير، وتأمل Google في استخدامه للحاق بمساعد التعليمات البرمجية GitHubCopilot من Microsoft.

ناقشت Google أيضًا استخدام Gemini لتنفيذ وظائف مثل تحليل المخططات، مثل مطالبة النموذج بتفسير معنى المخططات المكتملة، واستخدام الأوامر النصية أو الصوتية لتصفح متصفحات الويب أو البرامج الأخرى.

سيتم أيضًا دعم منصة Google Cloud للمطورين Google Cloud Vertex AI بواسطة Gemini، مع توفر الإصدارات الكبيرة والصغيرة، بحيث يمكن للمطورين الدفع لشراء نماذج صغيرة لتشغيلها على الأجهزة الشخصية.

الآن، تستعد Google بشكل كامل للحرب وتنتظر أن يبدأ الجوزاء هجومه المضاد.

تم إصدار gpt-3.5-turbo-instruct

في شهر يوليو، أعلنت شركة OpenAI أن واجهة برمجة تطبيقات GPT-4 متاحة بالكامل وستطلق نماذج جديدة في الأشهر القليلة المقبلة.

لا، اليوم فقط، تلقى مستخدمو الإنترنت رسائل بريد إلكتروني تُطلق النموذج الجديد لـ gpt-3.5-turbo-instruct ليحل محل النموذج القديم text-davinci-003.

وفقًا للتقارير، فإن gpt-3.5-turbo-instruct هو نموذج لأسلوب InstructGPT، وطريقة تدريبه مشابهة لـ text-davinci-003.

طريقة الاستخدام مشابهة لطريقة الإكمال الفوري السابقة، ويتم إكمالها وفقًا لتعليمات كلمة المطالبة.

من حيث السعر، يظل gpt-3.5-turbo4K ثابتًا.

بدأ بعض مستخدمي الإنترنت بالفعل في استخدام أحدث طراز للعب الشطرنج بحوالي 1800 إيلو.

لقد وجد سابقًا أن GPT لا يمكنها القيام بذلك على الإطلاق، ولكن يبدو الآن أن هذه مشكلة فقط في نموذج الدردشة RLHF، وأن نموذج الإكمال الخالص ناجح.

في اللعبة، هزم gpt-3.5-turbo-instruct بسهولة Stockfish المستوى 4 (1700 نقطة) وما زال لم يتأخر في المستوى 5 (2000 نقطة).

إنها لا تقوم أبدًا بأي حركة غير قانونية، وتستخدم تضحيات افتتاحية ذكية، وبيدقًا مذهلاً وكش ملك، مما يسمح لخصومها بالتقدم دون أي معنى حقيقي.

يستخدم مستخدمو الإنترنت مطالبات نمط PGN التالية لمحاكاة اللعبة الرئيسية. تسليط الضوء هو خاطئ بعض الشيء. يقوم GPT بتحركاته الخاصة، ويقوم بإدخال تحركات Stockfish يدويًا.

بالمناسبة، بدأ التسجيل في مؤتمر OpenAI الأول للمطورين المقرر عقده في نوفمبر، لذا سارع بالتقديم.