تحديث تصنيف LLM: Google Bard يتفوق على GPT-4. اللاعبون الصينيون ليسوا في المراكز العشرة الأولى

واليوم، تجاوز تصنيف Google Bard مستوى GPT-4 في مسابقة Imsys’s LLM المؤهلة وقفز مباشرة إلى المركز الثاني.(ولكن ليس أكثر من أحدث طراز GPT-4Turbo من OpenAI): عند مواجهة هذا الشيء الجيد، كان كبير العلماء في Google، جيف دين، أول من جاء "للتباهى" وأحضر نموذج GeminiPro الخاص به.

مقدمة الترتيب

تم إطلاق تصنيف LLMs (منصة ChatbotArena المعيارية) من قبل منظمة LMSYS (منظمة الأنظمة النموذجية الكبيرة) بقيادة باحثين من جامعة كاليفورنيا في بيركلي. يتم اشتقاق التصنيفات بناءً على نظام تصنيف Elo من خلال معارك 1V1 العشوائية والمجهولة بين LLMs.

كما هو موضح في الصورة أدناه، يمكنك طرح أي سؤال. الجانب الأيسر هو إجابة النموذج (أ)، والجانب الأيمن هو إجابة النموذج (ب). ومن ثم يمكنك تقييم إجابات النموذجين. هناك أربعة خيارات في المجمل: "أ أفضل؛ ب أفضل؛ أ جيد مثل ب؛ أ سيء مثل ب". إذا لم تتمكن من اتخاذ القرار في جولة واحدة من الدردشة، فيمكنك الاستمرار في الدردشة حتى تختار العارضة التي تعتقد أنها الأفضل، ولكن إذا تم الكشف عن هوية العارضة الكبيرة أثناء الدردشة، فلن يتم احتساب التصويت.

يوضح الشكل أدناه التوزيع النسبي لاحتمالية الفوز (باستثناء السحوبات) للنموذج A عند اللعب ضد النموذج B:

يوضح الشكل أدناه عدد المعارك لكل مجموعة نماذج (بدون روابط))

يوضح الرسم البياني أدناه متوسط معدل الفوز لنموذج واحد مقارنة بجميع النماذج الأخرى:

يهيمن OpenAI على القائمة، لكن اللاعبين الصينيين ليسوا في المراكز العشرة الأولى

الصورة أدناه توضح الترتيب الحالي للعشرة الأوائل في القائمة. ويمكن ملاحظة أن نماذج سلسلة GPT لا تزال تتمتع بميزة مطلقة (ثلاثة من المراكز الأربعة الأولى)، في حين تحتل نماذج سلسلة Anthropic's Claude ثلاثة من المراكز العشرة الأولى. ميسترال، الشركة التي تدعي أنها النسخة الأوروبية من OpenAI، لديها أيضًا نموذجان في المراكز العشرة الأولى هذه المرة.

يرجى أيضًا إلقاء نظرة على العمود الموجود في أقصى اليمين في الصورة أعلاه.من بين أفضل 10 نماذج، هناك 9 نماذج خاصة مغلقة المصدر، مما يدل على أن النموذج مفتوح المصدر لا يزال أمامه طريق ليقطعه.

ومن المؤسف أن نموذج اللغة الكبير للاعبين الصينيين لم يدخل المراكز العشرة الأولى.

ومن بينها، النموذج الأعلى تصنيفًا هو نموذج Yi-34B-Chat المملوك لشركة Zero-One الناشئة التابعة لشركة Kai-Fu Lee، حيث احتل المرتبة 13.

يليه نموذج الدردشة Tongyi Qianwen Qwen-14B من علي بابا، الذي احتل المرتبة 36:

ثم هناك نموذج سلسلة ChatGLM لشركة Zhipu AI الناشئة التابعة للبروفيسور تانغ جي في تسينغهوا:

لا بد من توضيح ثلاث نقاط:

1. هناك العديد من النماذج التي طورتها كبرى الشركات المصنعة الصينية والتي قد لا تكون مدرجة في هذه القائمة؛

2. هذه القائمة مخصصة للجمهور العالمي، حتى الآن يختار عدد أكبر من المستخدمين الدردشة باللغة الإنجليزية مقارنة بالصينية، مما قد يضر بنموذج اللغة الكبير الذي طوره اللاعبون الصينيون؛

3. تحسب هذه القائمة فقط الأسئلة والمحادثات العشوائية لـ 200000 مستخدم، وهو ما يمثل التقييم الحقيقي للمستخدمين الذين يدردشون مع LLMs. ومع ذلك، نظرًا لتفاوت أسئلة المستخدمين والكفاءة المهنية، فإن التقييم يتمتع بدرجة معينة من الذاتية.

وأخيرا، دعونا نتحدث عن جوجل. في الوقت الذي يغادر فيه العمال والعلماء لبدء أعمال تجارية، ومشاكل داخلية وخارجية (لمزيد من التفاصيل، يرجى الانتقال إلى Crisis Breakout من Google! يغادر العلماء لبدء أعمال تجارية، ويتم تسريح الموظفين ...)، هل تستطيع Google إكمال "Empire Strikes Back" خلال 24 عامًا؟

دعونا ننتظر ونرى!