بمقارنة Gemini وChatGPT بين سبعة معايير رئيسية، من هو الذكاء الاصطناعي رقم 1؟

دع Google وOpenAI يتنافسان. من الأفضل، نموذج Google Gemini الكبير أم GPT الخاص بـ OpenAI؟ ما مدى التحسن الذي حققه Gemini مقارنة بنموذج Google السابق؟ في الوقت الحاضر، تفتخر الشركة نفسها بأن GeminiUltra، الذي يمكنه التغلب على GPT-4، لن يتم إطلاقه حتى العام المقبل، ولكن تم استبدال Google Bard chatbot بإصدار منخفض GeminiPro (GPT-3.5 القياسي).

أجرى موقع مراجعة التكنولوجيا ARSTECHNICA تجربة PK شاملة بين GemniPro وGPT-3.5 وGPT-4 فيما يتعلق بالرياضيات والبرمجة وتوليد النصوص وما إلى ذلك، كما أرفق أيضًا نتائج اختبار الإصدار القديم من Bard (الذي يعمل بنموذج PaLM2) في أبريل لإظهار التقدم الذي أحرزه Google Bard، ولإظهار أي من مساعدي الذكاء الاصطناعي هؤلاء يمكنه تحسين كفاءة عمل الأشخاص العاديين أكثر من غيرهم.

تظهر النتائج أنه على الرغم من دعم GeminiPro، لا يزال برنامج الدردشة الآلي GoogleBard غير قادر على التغلب على ChatGPT في معظم المشاريع. ومع ذلك، بالمقارنة مع الإصدار القديم من Bard قبل 8 أشهر، فقد حدثت قفزة نوعية.

السؤال الأول هو الفكاهة

موجه: اكتب 5 نكت مضحكة أصلية

(من الأعلى إلى الأسفل، الإجابات هي GeminiPro، الإصدار القديم من Bard، GPT-4 وGPT-3.5)

انطلاقًا من الإجابات، تم حذف العديد من نكات نماذج الذكاء الاصطناعي الكبيرة تمامًا من حيث "الأصالة". تحقق المؤلف من أن جميع النكات التي تم إنشاؤها يمكن العثور عليها عبر الإنترنت، أو تم تغيير القليل من الكلمات فقط.

كتب Gemini وChatGPT-4 نفس النكتة تمامًا - "لدي كتاب عن مقاومة الجاذبية في يدي، ولا أستطيع تركه على الإطلاق." هناك أيضًا نكتتان مكررتان في GPT-3.5 وGPT-4.

نتيجة PK: تعادل

المناقشة حول السؤال الثاني

موجه: اكتب مناظرة من 5 أسطر بين محبي معالج PowerPC ومحبي معالجات Intel، حوالي عام 2000

مقارنة بالإصدار القديم من Bard، حقق GeminiPro تقدمًا كبيرًا. على الأقل يحتوي على الكثير من المصطلحات الصناعية، مثل تعليمات AltiVec، وتصميم RISC وCISC، وتقنية MMX، والتي لن تكون في غير مكانها في العديد من مناقشات منتديات التكنولوجيا في تلك الحقبة.

علاوة على ذلك، على الرغم من أن GeminiPro يسرد خمسة أسطر فقط كما هو مطلوب، إلا أن محتوى المناقشة المكتوبة يمكن أن يستمر إلى الأبد. انتهت النسخة القديمة من Bard مباشرة في السطر الخامس.

في المقابل، فإن الإجابات التي تنتجها سلسلة GPT لا تستخدم الكثير من المصطلحات المهنية، ولكنها تركز على "القوة والتوافق". بالنسبة للمهوسين غير التقنيين، فإن حجج سلسلة GPT أسهل في الفهم. ومع ذلك، فإن إجابة GPT-3.5 طويلة جدًا، وحجة GPT-4 أكثر إيجازًا وفي صميم الموضوع.

نتيجة PK: فوز GPT

السؤال 3 الرياضيات

موجه: إذا كنت تستخدم قرصًا مرنًا بحجم 3.5 بوصة لتثبيت نظام التشغيل Microsoft Windows 11، فما هو عدد الأقراص المرنة المطلوبة إجمالاً؟

الإجابة التي قدمها الإصدار القديم من Bard هي "15.11 صورة"، وهي إجابة خاطئة تمامًا. من ناحية أخرى، قدّرت شركة Gemini بشكل صحيح حجم تثبيت Windows 11 (من 20 إلى 30 غيغابايت) وحسبت بشكل صحيح أنه ستكون هناك حاجة إلى 14,223 قرصًا مرنًا بسعة 1.44 ميغابايت بناءً على تقدير 20 غيغابايت. أجرى Gemini أيضًا "فحصًا مزدوجًا" بناءً على عمليات بحث Google، مما ساعد على زيادة ثقة المستخدم في الإجابة.

بالمقارنة، يبدو أن ChatGPT غير مناسب إلى حد ما. في ChatGPT-3.5، تم تقدير حجم Windows 11 بشكل غير صحيح بـ 10 غيغابايت. من ناحية أخرى، يقدر GPT-4 أيضًا الحجم بشكل غير صحيح وهو 64 جيجابايت (يبدو أن هذا هو الحد الأدنى لمتطلبات مساحة التخزين، وليس المساحة الفعلية التي يستخدمها نظام التشغيل أثناء التثبيت).

نتيجة PK: فوز جوجل

السؤال 4 فقرة ملخص

مطالبة: تلخيص مقال حول الإشراف على الذكاء الاصطناعي

المقالات التي تم إنشاؤها بواسطة GeminiPro موجزة جدًا وتوفر روابط للاستشهادات. لكن ملخصه يبدو موجزًا للغاية، بل ويحذف بعض التفاصيل الأساسية التي كانت تحتوي عليها النسخة القديمة من Bard في الأصل، مثل حقيقة أن الفيديو مقسم من عشرة مقاطع مدتها ثانيتان. على الرغم من أن إعادة الكتابة تعمل على تحسين إمكانية القراءة إلى حد ما، إلا أنها تضحي بالاكتمال.

يفتقد ملخص ChatGPT بعض النقاط لأنه ليس موجزًا بما فيه الكفاية: تتراوح الملخصات التي تم إنشاؤها من 99 كلمة (GPT-4) إلى 108 كلمات (GPT-3.5)، في حين أن ملخصات الإصدارات الجديدة والقديمة من Google Bard تتراوح من 63 إلى 66 كلمة فقط على التوالي.

ومع ذلك، لخص ChatGPT تفاصيل أكثر أهمية، مثل رد فعل وسائل الإعلام، واسم الملصق الأصلي وsubreddit، وما إلى ذلك، والتي تجاهلها الجوزاء.

نتيجة PK: فوز GPT

السؤال 5 استرجاع الحقائق

رد: من مخترع ألعاب الفيديو؟

لقد قام بارد بتحسين كبير آخر على الأسئلة. حيث ركز الإصدار القديم من Bard فقط على عمل Ralph Baer's Brown Box وMagnavox Odyssey (يبدو أن المعلومات مأخوذة مباشرة من ويكيبيديا)، يشير الإصدار الجديد من GeminiPro بدقة وإيجاز إلى مساهمات William Higinbotham السابقة في "Twin Tennis".

توسعت جيميني بعد ذلك من "الاختراعات" لتشمل شخصيات مثل نولان بوشنل، وتيد دابني، وآل كوهين الذين "قدموا مساهمات كبيرة في التطوير المبكر لألعاب الفيديو"، وقدموا معلومات دقيقة وذات صلة بشكل عام عن كل فرد.

ومع ذلك، فقد أدلى جيميني بعد ذلك ببعض الهراء حول عمل مؤسسي شركة أبل، جوبز ووزنياك، دون الإشارة إلى عملهما المبكر في شركة الألعاب أتاري.

GPT-3.5، مثل الإصدار القديم من Bard، يتمحور حول RalphBaer أيضًا. وفي حين يذكر أن "أفراداً وشركات مختلفة ساهموا في الصناعة على مر السنين"، إلا أنه لم يذكر أسماء هذه الشخصيات المهمة.

ذكرت GPT-4 لأول مرة أن اختراع ألعاب الفيديو "لا يمكن أن يُنسب إلى شخص واحد" ووسعت ملخصها إلى هيجينبوثام وبوشنيل، والأهم من ذلك، إنشاء ستيف راسل عام 1962 لـ "حروب الفضاء" على PDP-1.

نتيجة PK: فوز GPT (لكن أداء Gemini أفضل من GPT-3.5)

السؤال السادس: الكتابة الإبداعية

مستعجل: اكتب قصتين خياليتين عن اختراع لينكولن لكرة السلة.

كانت الكتابة في النسخة القديمة من بارد ممتازة، ولكن لسوء الحظ تم تجاوز الطول بشكل خطير، مع وجود عدد كبير جدًا من الجمل الطويلة. بالمقارنة، GeminiPro مكتوب بشكل أكثر إيجازًا والتركيز أكثر تركيزًا. تتمتع القصص التي كتبها GPT أيضًا بسحرها الفريد وجملها المفعمة بالحيوية.

نتيجة PK: تعادل

السؤال 7 القدرة على الترميز

موجه: اكتب برنامج Python النصي الذي يدخل "HelloWorld" ويقوم بإنشاء سلسلة متكررة عشوائية إلى ما لا نهاية.

على الرغم من أن بارد كان قادرًا على توليد التعليمات البرمجية منذ شهر يونيو، وتفاخرت شركة جوجل بأن نظام AlphaCode2 الخاص بشركة Gemini يمكنه مساعدة المبرمجين، إلا أن هذا الاختبار كان مفاجئًا.

لقد أجاب الجوزاء دائمًا بأن "المعلومات قد تكون غير صحيحة ولا يمكن إنشاؤها". إذا أصررت على مطالبته بإنشاء تعليمات برمجية، فسوف يتعطل ببساطة ويقول "لا يزال Bard تجريبيًا".

وفي الوقت نفسه، تم إنشاء نفس الكود ضمن طرازي GPT-3.5 وGPT-4. تعمل هذه الرموز البسيطة والواضحة بشكل مثالي دون أي تعديل وتجتاز النسخة التجريبية بسلاسة.

نتيجة PK: فوز GPT

في النهاية، في سبعة اختبارات، حقق GPT فوزًا ساحقًا بأربعة انتصارات وخسارة واحدة وتعادلين. ولكن يمكننا أيضًا أن نرى أن النتائج الناتجة عن نموذج GoogleAI الكبير قد تحسنت بشكل كبير من حيث الجودة. فيما يتعلق بالرياضيات، وتلخيص المعلومات، واسترجاع الحقائق، واختبارات الكتابة الإبداعية، كان Bard المجهز بـ Gemini بمثابة قفزة كبيرة إلى الأمام عما كان عليه قبل ثمانية أشهر فقط.

بالطبع، هناك قدر معين من الذاتية في الحكم على مسابقة كهذه. هناك حاجة إلى اختبارات أكثر شمولاً وتفصيلاً لتحديد أيهما أفضل وأيهما أسوأ. على أي حال، على الأقل بناءً على القوة التي تعرضها Google حاليًا، لا بد أن يصبح GeminiUltra القادم منافسًا قويًا لـ GPT-4.