يُذكر أن OpenAI غير راضية عن أداء بعض شرائح NVIDIA AI وتناقش بدائل لشرائح الاستدلال”

كانت OpenAI مؤخرًا غير راضية عن أداء بعض شرائح الذكاء الاصطناعي من الجيل الأحدث من NVIDIA في عملية الاستدلال، خاصة في حالات استخدام محددة مثل تطوير البرامج وتفاعل النماذج مع أنظمة البرامج الأخرى. وتعتقد أن الأجهزة الحالية لا يمكنها تلبية الطلب من حيث سرعة الاستجابة، لذلك كانت تبحث بشكل منهجي عن البدائل منذ العام الماضي. وهذا يؤدي إلى تعقيد العلاقة بين أشهر شركة لنمذجة الذكاء الاصطناعي والمورد الأساسي الذي اعتمدت عليه منذ فترة طويلة.

وأشار التقرير إلى أنه على الرغم من أن Nvidia لا تزال تهيمن على مجال وحدات معالجة الرسومات لتدريب النماذج الكبيرة، فإن التركيز الاستراتيجي لـ OpenAI يميل نحو مرحلة الاستدلال، وهو جزء من العملية حيث يقوم النموذج بإخراج الإجابات للمستخدمين النهائيين. في هذا الرابط، يرتبط أداء زمن الاستجابة والإنتاجية ارتباطًا مباشرًا بتجربة المستخدم وهيكل التكلفة، لذلك تأمل OpenAI أن يتم نقل بعض أعباء العمل إلى شرائح جديدة أكثر ملاءمة لسيناريوهات الاستدلال ذات النطاق الترددي العالي وزمن الوصول المنخفض.

كانت OpenAI وNVIDIA تعملان في الأصل على تطوير ترتيبات استثمار وتوريد تبلغ قيمتها حوالي 100 مليار دولار أمريكي: خططت NVIDIA لتبادل الاستثمار مقابل الأسهم في OpenAI مع تزويدها بموارد شرائح متقدمة واسعة النطاق في السنوات القليلة المقبلة. وكان من المتوقع أصلاً أن يتم الانتهاء من هذه الصفقة، التي اعتبرها العالم الخارجي "صفقة منتهية"، قريبًا، لكن المفاوضات تأخرت الآن لعدة أشهر. من ناحية، يرجع السبب في ذلك إلى قيام OpenAI بتوقيع اتفاقيات شراء أو تعاون جديدة لوحدة معالجة الرسومات مع الشركات المصنعة مثل AMD، ومن ناحية أخرى، أثرت التغييرات في خريطة طريق منتجاتها على الطلب على نوع ونسبة موارد الحوسبة.

وفي البيانات العامة، لا يزال الطرفان يبذلان قصارى جهدهما للحفاظ على صورة إيجابية لعلاقتهما التعاونية. نفى الرئيس التنفيذي لشركة NVIDIA Jen-Hsun Huang مؤخرًا وجود علاقة متوترة مع OpenAI، واصفًا ادعاءات الخلاف بأنها "محض هراء" وأكد أن الشركة لا تزال تخطط للقيام باستثمارات واسعة النطاق في OpenAI؛ ذكرت NVIDIA أن العملاء يواصلون اختيار منتجاتها لأعباء العمل الاستدلالية لأنهم لا يزالون يتمتعون بمزايا في الأداء والتكلفة الإجمالية للملكية. قال متحدث باسم OpenAI أيضًا أن الشركة لا تزال تعتمد على NVIDIA في "الغالبية العظمى" من مجموعات الاستدلال الخاصة بها، معتقدًا أن الأخيرة لا تزال رائدة في أداء الاستدلال وفعالية التكلفة.

ومع ذلك، كشفت مصادر متعددة قريبة من الوضع أن OpenAI غير راضية عن سرعة أجهزة Nvidia في فئات معينة من مهام الاستدلال، وتعتقد أن خبرتها في منتجات مثل إنشاء التعليمات البرمجية محدودة. ولتحقيق هذه الغاية، تخطط OpenAI لتقديم أجهزة جديدة يمكنها تلبية ما يقرب من 10% من احتياجات طاقة الحوسبة الاستدلالية المستقبلية كمكمل لمجموعات GPU الحالية. على طول الطريق، أجرت الشركة محادثات مع الشركات الناشئة بما في ذلك Cerebras وGroq، على أمل الاستفادة من خبراتهم في تسريع الاستدلال.

على المستوى التقني، تركز OpenAI على البنى التي تدمج أكبر قدر ممكن من الذاكرة الثابتة على الرقاقة (SRAM) في نفس الشريحة. يمكن لهذا النوع من التصميم أن يختصر بشكل كبير مسار وحدات الحوسبة للوصول إلى المعلمات والبيانات الوسيطة، وبالتالي تحسين سرعة استجابة روبوتات الدردشة وأنظمة الذكاء الاصطناعي الأخرى عند التعامل مع الطلبات الضخمة. في المقابل، تعتمد وحدات معالجة الرسومات التقليدية من Nvidia وAMD على ذاكرة الفيديو الخارجية، مما يزيد من زمن الوصول إلى الذاكرة أثناء مرحلة الاستدلال، مما يترك الشريحة في حالة "انتظار البيانات" لفترة طويلة من الوقت.

يظهر عنق الزجاجة هذا بشكل بديهي داخل OpenAI في منتجاتها البرمجية التي تستهدف المبرمجين. يعزو بعض الأشخاص داخل الشركة بعض أوجه القصور في الخبرة إلى بنية الأجهزة المعتمدة على وحدة معالجة الرسومات ويعتقدون أنه من أجل إرضاء حساسية المستخدمين المحترفين العالية للسرعة، يجب عليهم البحث عن شرائح استدلالية ذات مزايا هيكلية. قال الرئيس التنفيذي سام ألتمان أيضًا عند التواصل مع وسائل الإعلام في نهاية شهر يناير إن مستخدمي المؤسسات "سيعطون وزنًا كبيرًا للغاية" للسرعة عند استخدام النموذج القائم على التعليمات البرمجية، في حين أن مستخدمي chatbot العاديين يتمتعون بقدرة أعلى نسبيًا على سرعة الاستجابة.

ومن أجل تحسين سرعة الاستدلال، توصلت OpenAI مؤخرًا إلى تعاون مع Cerebras، التي تزودها بمنصة حوسبة من الجيل الجديد، والتي تعتبر جزءًا مهمًا من تلبية احتياجات زمن الوصول المنخفض للعملاء المتميزين. وفي الوقت نفسه، أشار المطلعون على الصناعة إلى أن المنافسين مثل Anthropic's Claude وGoogle's Gemini يعتمدون أكثر على وحدة المعالجة الموترية ذاتية التطوير (TPU) من Google للنشر. يتمتع هذا النوع من الرقائق المخصصة بمزايا أداء معينة مقارنة بوحدات معالجة الرسومات للأغراض العامة في مهام التفكير والاستدلال المعقدة، كما زاد الضغط على Nvidia في الجولة الجديدة من منافسة أجهزة الذكاء الاصطناعي.

في مواجهة التغييرات في طلبات العملاء والمنافسة الجديدة، أخذت NVIDIA أيضًا زمام المبادرة واتصلت بمجموعة من شركات الرقائق التي تركز على بنية SRAM ذات النطاق الترددي العالي، بما في ذلك Cerebras وGroq، لاستكشاف إمكانية عمليات الاستحواذ أو التعاون المتعمق. رفضت شركة Cerebras في النهاية خيار الاستحواذ ووقعت بدلاً من ذلك اتفاقية تجارية مع OpenAI؛ تفاوضت Groq ذات مرة مع OpenAI لتقديم خدمات الحوسبة وجذبت اهتمام المستثمرين بضخ رأس المال بقيمة تبلغ حوالي 14 مليار دولار أمريكي.

ومع ذلك، في ديسمبر من العام الماضي، توصلت Nvidia إلى صفقة ترخيص غير حصرية لتقنية Groq مقابل ما يقرب من 20 مليار دولار أمريكي، ونجحت على التوالي في الاستيلاء على فريق تصميم الرقائق من Groq. بعد هذه الصفقة، تحول تركيز أعمال Groq إلى مبيعات البرامج السحابية، واعتبرتها Nvidia مكملاً مهمًا لخريطة طريق منتجاتها الخاصة لملء أوجه القصور في تكنولوجيا تسريع الاستدلال في صناعة الذكاء الاصطناعي سريعة التطور.