مثيرة جدا. أصدرت OpenAI للتو القاتل الكبير GPT-5.2 بالأمس، ولكن اليوم تم الكشف عنها للاشتباه في تسويقها الكاذب؟ في الصباح الباكر، اشتعلت دائرة التكنولوجيا بأخبار عاجلة - اكتشف أحد المستخدمين "Hua Dian" من خلال حسابات دقيقة: ربما قامت OpenAI بتعديل معلمة "قوة الاستدلال" للنموذج في أحدث اختبار مرجعي، مما يسمح لـ GPT-5.2 باستخدام موارد حوسبة أكثر بكثير من خصومه في التقييمات الرئيسية.


في جملة واحدة، أداء GPT-5.2 وGemini 3 Pro على ARC AGI 2 هو نفسه بشكل أساسي بعد ضبط استخدام الرمز المميز.

على وجه التحديد، المشكلة تكمن في هذه الصور.


كما هو واضح، يستخدم OpenAI رموزًا إضافية في الاختبار المعياري، على الأقل ضعف ما يستخدمه Gemini 3.0 Pro.

إنه مثل لاعبين يلعبان الشطرنج، يُسمح لأحدهما بالتفكير لمدة ساعة والآخر لمدة عشر دقائق فقط قبل إعلان فوز الأول.

وفي هذه الحالة هل النتيجة عادلة؟

OpenAI يتفوق على Google، في الواقع عن طريق الغش؟

بالأمس، صُدمت دائرة الذكاء الاصطناعي بالنتيجة التي مفادها أن GPT-5.2 هزمت Gemini 3.0 Pro. كان الأداء الرائع للأول في ARC AGI 2 رائعًا بشكل خاص وقد حظي بإشادة كبيرة من مجتمع الذكاء الاصطناعي.

ولكن الآن، هل من المحتمل أن يتم تخفيف هذه النتائج؟


على سبيل المثال، في اختبار ARC AGI 2 الذي تمت مشاهدته كثيرًا، سجل الإصدار GPT-5.2 xhigh نسبة 52.9%، مستهلكًا ما يقرب من 135000 رمزًا مميزًا لكل مهمة.

تم حسابها استنادًا إلى تسعير واجهة برمجة التطبيقات (API)، وتصل تكلفة طاقة الحوسبة لكل مهمة وحدها إلى 1.9 دولارًا أمريكيًا.

وبالمقارنة، حقق Google Gemini 3.0 Pro نتائج مماثلة مع 67000 رمزًا، وهو ضعف الكفاءة.

إذا وضعنا قوة الحوسبة في التطبيع، فسنجد أن القدرات الحقيقية للنموذجين متقاربة تقريبًا.

إذا كان هذا الافتراض صحيحًا بشكل عام، فإن أداء GPT 5.2 لا يزال ضعيفًا في HLE وMMMU-Pro وVideo-MMMU وFrontier Math Tier 4 على الرغم من أن عدد الرموز المميزة المستخدمة يتجاوز ضعف عدد الرموز المميزة في Gemini 3.

في GPQA، فهي متكافئة بشكل أساسي. في Frontier Math Tier 3، GPT 5.2 xhigh أعلى بنسبة 2.7% من Gemini 3 Pro.

الاستثناء الوحيد هو الناتج المحلي الإجمالي (GDPVal) - مجموعة اختبار تم إنشاؤها بواسطة OpenAI نفسها. كحكم ورياضي على حد سواء، يجب مراعاة موضوعية النتائج.


ايليا : لقد أخبرتك من قبل

في الواقع، قال إيليا بالفعل في مقابلات سابقة إن النماذج الكبيرة الحالية تم تحسينها بشكل أساسي للتصنيفات، ونتائج التصنيفات مائية للغاية.

يعلم الجميع في الصناعة أن "سباق التسلح" اليوم في اختبار معايير الذكاء الاصطناعي قد تجاوز منذ فترة طويلة المنافسة التقنية البحتة. يتنافس كل مصنع على تقديم معايير التقييم الخاصة به، وغالباً ما تكون هذه المعايير منحازة لنماذجها الخاصة، عن قصد أو عن غير قصد.


OpenAI ليست وحدها في القيام بذلك بأي حال من الأحوال.

في FACTS Benchmark الذي أطلقته Google، فإن نتيجة تجاوز Gemini 2.5 Pro لـ GPT-5 تحمل أيضًا علامة استفهام.

في SWE Bench (تقييم هندسة البرمجيات)، يكون الوضع أكثر تعقيدًا.

تتمتع النماذج المختلفة بنقاط قوة خاصة بها في مهام البرمجة المختلفة، ولكن لا يمكن لنموذج واحد أن يتولى القيادة في جميع المهام. من الواضح أن مشاكل العالم الحقيقي أكثر تعقيدًا بكثير من مجرد جزء واحد.

لذلك، تعكس هذه الحادثة المعضلة الأساسية لتقييم الذكاء الاصطناعي ——

إذا لم يحصل GPT-5.2 إلا على تحسينات في الأداء من خلال استهلاك المزيد من الطاقة الحاسوبية، فهل يمكنه حقًا تحقيق تقدم ذكي؟ أم أنه مجرد انتصار لـ"الحسابات العنيفة"؟

يتحدث مستخدمو الإنترنت أيضًا عن "التسويق الكاذب" لـ OpenAI هذه المرة.


يقول بعض الأشخاص أنه إذا كانت معلمات "قوة الاستدلال" التي يحصل عليها المستخدمون هي نفسها وتم استخدام نفس الرمز المميز، فإن OpenAI لا يعتبر تسويقًا زائفًا.

لكن إذا كانت النسخة التي يتم اختبارها ليست هي نفس النسخة التي يستخدمها المستخدم، فهي غش.


هناك أيضًا بعض الأشخاص الذين يقفون إلى جانب OpenAI.

يشعرون أنه حتى لو زاد عدد الرموز في Gemini 3، فقد لا يتمكن من اللحاق بـ GPT-5.2. وفي هذا الصدد، فإن الأول متخلف بالفعل.

ويقول البعض أيضًا أنه بما أن أسعار العارضات علنية، فهذا لا يشكل خداعًا.




يا لها من صدفة. ثم اكتشفنا أن أحد الأشخاص قد أثار بالفعل مسألة "البضائع ليست على ما يرام".


وفي منشور آخر في المجتمع، أشار أحد الأشخاص أيضًا إلى مشكلة الغش في OpenAI——

في وقت مبكر عندما تم إصدار GPT-5.1، استخدمت جميع المعايير قوة استدلال عالية (عالية)، ولكن يمكن للمستخدمين الإضافيين فقط استخدام الإصدار المتوسط.

في الإصدار الحالي 5.2، أضاف OpenAI قوة استدلال أعلى "xhigh"، وبالتالي فإن الأداء الموضح في الاختبار المعياري يتجاوز بكثير التجربة الفعلية لمستخدمي ChatGPT المدفوعين.


ما هي تجربتك الفعلية مع GPT-5.2؟

دون النظر إلى القائمة، دعونا نلقي نظرة على تجربة المستخدم الفعلية.

نشر أحد مستخدمي الإنترنت أن انطباعه الأول عن GPT-5.2 لم يكن جيدًا جدًا.


على سبيل المثال، عند فحص الكود، تكون ظاهرة الهلوسة خطيرة للغاية.

اعتقد مستخدمو الإنترنت أن GPT-5.2 سيكون أفضل بكثير من 5.1، ولكن لم يكن هذا هو الحال في الاستخدام الفعلي. لم يتمكن من فهم رمز الوظيفة الذي كتبه.


أفاد مستخدمو الإنترنت الآخرون أن GPT-5.2 يبدو أنه يعامل البالغين مثل الأطفال في مرحلة ما قبل المدرسة، ولا يبدو أنه ترقية، بل انحدار.


لا تزال مجموعة المستخدمين الأساسية في OpenAI تفتقد GPT-4o أكثر من غيرها.


باختصار، يبدو أن التجربة الفعلية لـ GPT-5.2 مختلفة تمامًا عن الاختبار المعياري، وهو منتج آخر تم إصداره على عجل في ظل حالة التنبيه الأحمر.

OpenAI، الذي هزمته جوجل على عجل، أصبح على ما هو عليه اليوم. ومن الواضح أن ذلك لم يحدث بين عشية وضحاها.

لقد تغير OpenAI

بعد كل شيء، عندما تكون المنظمة "شخصًا يدرس الذكاء الاصطناعي" و"شخصًا يبيع قصصًا عن الذكاء الاصطناعي"، فهل لا يزال بإمكانها مواجهة هذه الحقائق القاسية بأمانة؟

وفقًا لأحدث تحقيقات Wired، فإن OpenAI تشهد زلزالًا عنيفًا داخل OpenAI فيما يتعلق بـ "الحق في قول الحقيقة".

عندما واجهت أسئلة قاتلة مثل "هل سيأخذ الذكاء الاصطناعي وظيفتك؟"، تغيرت استراتيجية OpenAI بهدوء:اصمت وركز على البيع.

وقد أثار هذا التحول نحو التضحية بالاستقلال الأكاديمي من أجل المصالح التجارية غضب الباحثين بشكل مباشر.

"لقد أصبحنا لسان حال الرئيس"

إذا نظرنا إلى الوراء في عام 2023، أصدرت OpenAI ورقة بحثية رائجة بعنوان "GPTs Are GPTs"، والتي حللت بشكل مباشر الصناعات التي من المرجح أن تتعطل بسبب الذكاء الاصطناعي، وتم نشرها في مجلة Science في العام التالي.

في ذلك الوقت، كانوا لا يزالون يتجرأون على النظر مباشرة إلى ظل "البطالة التكنولوجية".



عنوان الورقة: https://arxiv.org/abs/2303.10130

العلوم: https://www.science.org/doi/10.1126/science.adj0998

ولكن في سبتمبر من هذا العام، تغير أسلوب الرسم.

تحت قيادة كبير الاقتصاديين الجديد آرون تشاترجي، أصدرت OpenAI تقريرًا بعنوان "كيف يستخدم المستخدمون العالميون ChatGPT".

من الطلاب الذين يكتبون الواجبات المنزلية إلى المحترفين الذين يقومون بإعداد الجداول الزمنية، رسم التقرير صورة جميلة للذكاء الاصطناعي بكل تفاصيله.

لا شك أن الاستنتاج أحادي الجانب: فالذكاء الاصطناعي هو محرك الإنتاجية وخالق القيمة الاقتصادية.

يُقال عن مستخدمي الأعمال أن ChatGPT يوفر لهم من 40 إلى 60 دقيقة يوميًا.


عنوان التقرير: https://www.nber.org/papers/w34255

وفي هذا الصدد، اشتكى موظف سابق قائلاً: "هذا مجرد إعلان بسيط مصمم خصيصًا لاقتراح "الذكاء الاصطناعي يخلق القيمة"، وهو مليء بالتبييض".

"الحقيقة" في خطاب الاستقالة

كانت نقطة اشتعال الصراع هي استقالة توم كننغهام، أحد مؤلفي التقرير والعمود الفقري للأبحاث الاقتصادية في OpenAI.

خلال العام الماضي، أصبحت مراجعة OpenAI "للأبحاث السلبية" صارمة بشكل متزايد.

تلك المواضيع التي تناقش كيف يمكن للذكاء الاصطناعي أن يحل محل الموظفين ذوي الياقات البيضاء (مثل خدمة العملاء والإدارة) إما أن يُطلب منها "تخفيف الصياغة" أو يتم وضعها على الرف ببساطة.

لم يعد بإمكان كننغهام تحمل الأمر بعد الآن وترك رسالة وداع مباشرة على سلاك:

بعد أن كرسنا جهودنا للبحث الأكاديمي الدقيق، أصبحنا الآن مجرد أقسام اتصالات مؤسسية.

ويعتقد أن الفريق لم يفقد حرية دراسة الآثار السلبية للذكاء الاصطناعي فحسب، بل اضطر إلى "منح المال" للشركة.


كننغهام ليس وحده.

  • مدير أبحاث السياسات السابقمايلز بروندجعندما غادر، صرح بصراحة أن الشركة كانت "رفيعة المستوى ومقيدة للغاية"، مما منعه من "التعبير عن آراء مهمة حقًا".

  • فريق سوبر الانحيازوليام سوندرزلقد غادر بغضب لأنه كان غير راضٍ عن أن الشركة "ركزت فقط على إطلاق منتجات جديدة وتجاهلت مخاطر المستخدم".

  • باحث أمني سابقستيفن أدلرحتى أنها انتقدت ChatGPT علنًا لاحتمالية إحداث "أزمات عقلية وأوهام" بين المستخدمين.

الصمت يساوي تريليون دولار

في مواجهة استقالة كننغهام، نظمت الإدارة العليا لشركة OpenAI أزمة علاقات عامة.

ورد كبير مسؤولي الإستراتيجية جيسون كوون في المذكرة:

وبما أننا نحن من جلب الذكاء الاصطناعي إلى العالم، فيجب أن نكون مسؤولين عن بناء الحلول بدلاً من مجرد النظر إلى المشاكل.

ترجمته هي:التوقف عن نشر الحجج مقالمنظمة العفو الدوليةسيؤدي إلى البطالة، وهو أمر لا يفضي إلى المبيعات؛ فكر أكثر في كيفية الثناء على منتجاتنا لتحسين الكفاءة.

لماذا يفعل OpenAI هذا؟ الجواب مخفي في دفتر الأستاذ.


لم يعد OpenAI اليوم بمثابة مختبر غير ربحي كما كان في السابق، بل أصبح يركض بسرعة1 تريليون دولارتقييم مذهل وتستعد لأكبر طرح عام أولي في التاريخ.

  • لقد استغرق الأمر عشرات المليارات من الدولارات من مايكروسوفت؛

  • ويتطلب الأمر من عمالقة الرقائق استثمار 100 مليار دولار أخرى؛

  • ووعدت بدفع 250 مليار دولار أمريكي لشركة Microsoft مقابل الخدمات السحابية في المستقبل.

وفي مواجهة الفوائد الفلكية، أصبح "الصدق" أغلى أنواع الرفاهية.

إذا كنت تستعد للإعلان عن نفسها وتحاول إقناع العالم بتبني الذكاء الاصطناعي، فلن ترغب أبدًا في أن يقفز باحثوك ويقولون: "مرحبًا، وفقًا للبيانات، قد تتسبب هذه الموجة من الذكاء الاصطناعي في خسارة 30٪ من الموظفين الإداريين لوظائفهم".

الجانب الآخر من "سنوات الهدوء"

ومن المثير للاهتمام أن المنافس القديم Anthropic يبدو أنه حصل على "النص" المعاكس تمامًا.

حتى أن رئيسها التنفيذي داريو أمودي "غنى النغمة المعاكسة علناً"، محذراً من أن الذكاء الاصطناعي قد يحل محل نصف الموظفين الإداريين المبتدئين بحلول عام 2030.

وبطبيعة الحال، هذا ليس بالضرورة من باب الصدق - فكثير من الناس يفسرون هذا على أنه مجرد "قلق" باعته شركة أنثروبيك عمدا في مقابل أرباح تنظيمية.

ولكن بالنظر إلى OpenAI، فإن الوضع أكثر دقة.

والآن يتولى مسؤولية فريق الأبحاث الاقتصادية كريس ليهان، مستشار كلينتون السابق وخبير العلاقات العامة البارز في الأزمات المعروف باسم "سيد الكوارث".


في هذا الإصدار الجديد المنقح بعناية، لن يكون الذكاء الاصطناعي أبدًا "وحشًا" يسبب الاضطرابات الاجتماعية. سيكون مجرد مساعد ذكي يساعدك على "توفير 40 دقيقة كل يوم".

أما تلك الحقائق المحرجة عن البطالة والاضطرابات والفقاعات؟

صه، من أجل هذا التقييم البالغ تريليون، يرجى التزام الصمت.