الشريحة التي تحقق معجزة DeepSeek تبدو بمثابة دعوة للاستيقاظ لـ Nvidia

في الأسبوعين الماضيين، أصبح DeepSeek نقطة ساخنة عالمية. أثار نظام الذكاء الاصطناعي التوليدي القادم من الصين، وخاصة في العالم الغربي، نقاشًا واسع النطاق. خلال أول 18 يومًا من إصداره، حقق DeepSeek 16 مليون عملية تنزيل مذهلة. وهذا الرقم هو تقريبًا ضعف عدد التنزيلات لبرنامج ChatGPT المنافس لشركة OpenAI في نفس الفترة، مما يدل بشكل كامل على جاذبيتها القوية في السوق وقاعدة المستخدمين.

وفقًا لبيانات موثوقة من شركة Appfigures لتحليل السوق، تصدّر تطبيق DeepSeek متجر تطبيقات Apple لأول مرة في 26 يناير، واستمر في الحفاظ على هيمنته العالمية منذ ذلك الحين. وتشير إحصائيات البيانات إلى أنه منذ إصداره في بداية هذا العام، صعد بسرعة إلى أعلى تصنيفات التنزيل على متجر تطبيقات Apple في 140 دولة، واحتل أيضًا المركز الأول في متجر Android Play Store في الولايات المتحدة.

وباعتباره نموذجًا كبيرًا للذكاء الاصطناعي في الصين، تمكن DeepSeek من جذب هذا الاهتمام. بالإضافة إلى أدائها الممتاز، فإن تكلفة التدريب المنخفضة لها هي أيضًا المفتاح لجذب الاهتمام العالمي. في مقالة اليوم، نلقي نظرة على الرقائق والأنظمة الكامنة وراء DeepSeek.

التمهيدي لبنية DeepSeek

مرة أخرى في أغسطس 2024، نشر فريق DeepSeek ورقة بحثية تصف موازن التحميل الجديد الذي أنشأه لربط عناصر النموذج الأساسي لـ Mix of Experts (MoE: Mixture of Experts).

ذكر DeepSeek في المقالة أنه بالنسبة لنموذج الخبير المختلط (MoE)، سيؤدي اختلال توازن حمل الخبير إلى انهيار التوجيه (routingcollapse) أو زيادة الحمل الحسابي (الحمل الحسابي). تستخدم الأساليب الحالية عادة الخسائر المساعدة لتعزيز موازنة التحميل، ولكن الخسائر المساعدة الكبيرة ستؤدي إلى تدرجات تداخل لا يمكن إهمالها في التدريب، مما يؤدي إلى الإضرار بأداء النموذج.

من أجل التحكم في توازن التحميل أثناء عملية التدريب دون توليد تدرجات غير مرغوب فيها، اقترح فريق DeepSeek موازنة خالية من الخسائر (Loss-FreeBalancing)، والتي تتميز باستراتيجية موازنة تحميل خالية من الخسائر الإضافية.

على وجه التحديد، ستطبق الموازنة غير المفقودة أولاً انحيازًا من جانب الخبراء على درجات التوجيه الخاصة بكل خبير قبل اتخاذ قرارات التوجيه من أعلى مستوى. من خلال التحديث الديناميكي لانحياز كل خبير استنادًا إلى التحميل الأخير، يمكن دائمًا للموازنة غير المفقودة الحفاظ على توزيع متوازن لأحمال الخبراء.

علاوة على ذلك، بما أن الموازنة بدون خسارة لا تنتج أي تدرجات مزعجة، فإنها ترفع أيضًا الحد الأعلى لأداء النموذج الذي تم الحصول عليه من تدريب وزارة التربية والتعليم. تحقق فريق DeepSeek أيضًا من أداء التوازن بدون فقدان في نماذج MoE مع ما يصل إلى 3B من المعلمات وتم تدريبه على ما يصل إلى 200B من الرموز المميزة. تظهر النتائج التجريبية أنه بالمقارنة مع استراتيجية موازنة التحميل التقليدية للتحكم في فقدان الحزمة المساعدة، فإن استراتيجية الموازنة بدون فقدان تحقق أداءً أفضل وموازنة تحميل أفضل.

الشكل 1: يختار التوازن غير المنقوص الخبراء بناءً على نقاطهم المتحيزة في كل خطوة تدريب ويقوم بتحديث تحيز الخبراء هذا بعد كل خطوة تدريب.

وفي تقرير "التقرير الفني لـ DeepSeek-V3" الصادر في نهاية عام 2024، أجرى فريق DeepSeek تفسيرًا متعمقًا للبنية الفنية لنموذج DeepSeek-V3 الخاص به، والذي يوفر لنا المزيد من المرجع لفهم تكنولوجيا الشركة.

وقد ذكروا بصراحة في التقرير أنه انطلاقًا من الاعتبارات التطلعية، اتبعت الشركة دائمًا نماذج ذات أداء قوي وتكلفة منخفضة. لذلك، فيما يتعلق بالهندسة المعمارية، لا يزال DeepSeek-V3 يستخدم الانتباه الكامن متعدد الرؤوس (MLA: الانتباه الكامن متعدد الرؤوس) للاستدلال الفعال وDeepSeekMoE لتحقيق تدريب فعال من حيث التكلفة. من أجل تحقيق تدريب فعال، يدعم حل فريق DeepSeek التدريب الدقيق المختلط FP8 ويحسن إطار التدريب بشكل كامل. ومن وجهة نظرهم، أصبح التدريب منخفض الدقة حلاً واعداً للتدريب الفعال، ويرتبط تطويره ارتباطًا وثيقًا بالتقدم في قدرات الأجهزة.

الشكل 2: إطار الدقة المختلط الشامل باستخدام تنسيق بيانات FP8. من أجل الوضوح، تم توضيح العوامل الخطية فقط.

ومن خلال دعم حوسبة وتخزين FP8، حقق فريق DeepSeek تدريبًا سريعًا وتقليل استخدام ذاكرة وحدة معالجة الرسومات. فيما يتعلق بإطار التدريب، فقد صمموا خوارزمية DualPipe لتحقيق توازي فعال لخطوط الأنابيب، والذي يحتوي على عدد أقل من فقاعات خطوط الأنابيب ويخفي معظم الاتصالات في عملية التدريب من خلال تداخل الحساب والاتصالات.

الشكل 3: مخطط البنية الأساسية لبرنامج DeepSeek-V3. بعد DeepSeek-V2، تعتمد الشركة MLA وDeepSeekMoE للاستدلال الفعال والتدريب الاقتصادي.

يقول فريق DeepSeek إن هذا التداخل يضمن أنه مع توسع النموذج بشكل أكبر، لا يزال بإمكان الشركة استخدام خبراء دقيقين عبر العقد مع تحقيق ما يقارب الصفر من تكاليف الاتصالات الشاملة طالما أنها تحافظ على نسبة حسابية ثابتة إلى الاتصالات.

بالإضافة إلى ذلك، قام فريق DeepSeek بتطوير مراكز اتصال شاملة وفعالة عبر العقد للاستفادة الكاملة من عرض النطاق الترددي InfiniBand (IB) وNVLink. قامت الشركة أيضًا بتحسين بصمة الذاكرة بعناية بحيث يمكن تدريب DeepSeek-V3 دون توازي موتر باهظ الثمن.

ومن خلال الجمع بين هذه الجهود، حقق فريق DeepSeek كفاءة تدريبية عالية.

الجدول 1: تكاليف تدريب DeepSeek-V3، بافتراض أن سعر استئجار H800 هو 2 دولار لكل ساعة وحدة معالجة رسومات.

وفقًا لتركيز فريق DeepSeek في الورقة، يتم تحقيق ذلك من خلال التصميم المشترك لخوارزميات التحسين والأطر والأجهزة. في مرحلة ما قبل التدريب، يتطلب تدريب DeepSeek-V3 فقط 180KH800GPU ساعة لكل تريليون رمز، أي 3.7 يومًا فقط في مجموعته التي تحتوي على 2048 H800GPU. ونتيجة لذلك، تم الانتهاء من مرحلة ما قبل التدريب للشركة في أقل من شهرين واستغرقت 2664 ألف ساعة من ساعات معالجة الرسومات. بما في ذلك 119 ألف ساعة GPU لتمديد طول السياق و5K ساعة GPU لمرحلة ما بعد التدريب، استغرق التدريب الكامل لـ DeepSeek-V3 2.788 مليون ساعة GPU فقط.

بافتراض أن سعر استئجار وحدة معالجة الرسومات H800 يبلغ 2 دولارًا أمريكيًا للساعة، فهذا يعني أن إجمالي تكلفة التدريب الخاصة بها تبلغ 5.576 مليون دولار أمريكي فقط. أكد فريق DeepSeek أيضًا على وجه التحديد على أن التكاليف المذكورة أعلاه تشمل فقط التدريب الرسمي لـ DeepSeek-V3 ولا تشمل التكاليف المتعلقة بالأبحاث السابقة وتجارب الاستئصال في الهندسة المعمارية أو الخوارزميات أو البيانات. وعلى سبيل المقارنة، قال سام ألتمان، رئيس OpenAI، إن تدريب GPT-4 سيتطلب أكثر من 100 مليون دولار.

في 20 يناير، أطلقت DeepSeek نموذج DeepSeek-R1، الذي يضيف مرحلتين للتعلم المعزز ومرحلتين للضبط الدقيق تحت الإشراف لتعزيز قدرات الاستدلال للنموذج. يتقاضى DeepSeekAI رسومًا أكثر بـ 6.5 مرة لنموذج R1 من طراز V3 الأساسي. بعد ذلك، أصدرت DeepSeek برنامج Janus-Pro، وهو نسخة محدثة من نموذجها متعدد الوسائط Janus. يعمل النموذج الجديد على تحسين استراتيجيات التدريب وتوسيع البيانات وحجم النموذج، مما يعزز الفهم متعدد الوسائط وتوليد النص إلى صورة.

حتى الآن، أصبح DeepSeek شائعًا في جميع أنحاء العالم.

الشريحة وراء DeepSeek

بعد ظهور DeepSeek، انتشرت أيضًا بعض المناقشات حول نظامه وإطار البحث الفني في جميع أنحاء الإنترنت، وتحديدًا فيما يتعلق بالأجهزة. وبسبب تكلفتها المنخفضة للغاية، فقد تسبب ذلك في حدوث صدمات في سوق شرائح الذكاء الاصطناعي بأكمله. إن الانخفاض الحاد الذي شهدته NVIDIA في الأيام القليلة الماضية هو الانعكاس الأكثر مباشرة لهذا القلق.

كما ذكرنا أعلاه، قال DeepSeek أن المجموعة المستخدمة لتدريب نموذج V3 تحتوي فقط على 256 عقدة خادم، كل منها بها 8 مسرعات H800 GPU، بإجمالي 2048 وحدة معالجة رسوميات. يتوقع المحللون في nextplatform أن بطاقات GPU هذه هي إصدارات H800SXM5 من بطاقات Nvidia's H800، والتي تتميز بأداء الفاصلة العائمة FP64 بحد أقصى 1 تيرافلوب وهي مماثلة لإصدار 80 جيجابايت من بطاقات H100 التي يمكن لمعظم الشركات حول العالم شراؤها.

من بينها، ترتبط وحدات معالجة الرسومات الثمانية داخل العقدة مع NVSwitch لإنشاء مجال ذاكرة مشترك بين ذكريات وحدة معالجة الرسومات هذه، وتحتوي العقدة على بطاقات InfiniBand متعددة (ربما واحدة لكل وحدة معالجة رسومات) لإنشاء روابط ذات نطاق ترددي عالي إلى العقد الأخرى في المجموعة.

خاصة بـ H800، هذه هي وحدة معالجة الرسومات التي أطلقتها Nvidia في الأصل استجابة لقيود التصدير في الولايات المتحدة. كانت لوائح حظر تصدير GPU الأمريكية في ذلك الوقت تقيد بشكل أساسي جانبين: قوة الحوسبة وعرض النطاق الترددي. من بينها، الحد الأعلى لقوة الحوسبة هو 4800TOPS والحد الأعلى لعرض النطاق الترددي هو 600 جيجابايت/ثانية. قوة الحوسبة في A800 وH800 تعادل النسخة الأصلية، ولكن يتم تقليل عرض النطاق الترددي.

الشكل 4: تفاصيل H800

كما ذكرنا سابقًا، يستخدم DeepSeek إصدار H800SXM في التدريب. من المفهوم أن ما يسمى ببنية SXM هو حل مقبس ذو نطاق ترددي عالٍ لتوصيل مسرعات NVIDIATensorCore بأنظمة DGX وHGX الخاصة بها. لكل جيل من وحدات معالجة الرسومات NVIDIA Sensor Core، تم تجهيز لوحة HGX لنظام DGX بمقبس من نوع SXM، والذي يتيح عرض النطاق الترددي العالي وتوصيل الطاقة ووظائف أخرى لبطاقة GPU المطابقة الخاصة بها.

وفقًا للبيانات، تقوم لوحة نظام HGX المتخصصة بربط 8 وحدات معالجة رسوميات من خلال NVLink، مما يحقق عرض نطاق ترددي عالي بين وحدات معالجة الرسومات. تتيح إمكانيات NVLink تدفقًا سريعًا للغاية للبيانات بين وحدات معالجة الرسومات، مما يسمح لها بالعمل كوحدة معالجة رسومات واحدة دون الحاجة إلى المرور عبر PCIe أو الحاجة إلى الاتصال بوحدة المعالجة المركزية لتبادل البيانات. تقوم NVIDIA DGXH800 بتوصيل 8 SXM5H800، من خلال 4 شرائح تبديل NVLink، ويبلغ عرض النطاق الترددي لكل وحدة معالجة رسومات 400 جيجابايت/ثانية، ويتجاوز إجمالي عرض النطاق الترددي ثنائي الاتجاه 3.2 تيرابايت/ثانية. يتم أيضًا توصيل كل وحدة H800SXMGPU بوحدة المعالجة المركزية عبر PCIExpress، لذلك يمكن إعادة توجيه البيانات المحسوبة بواسطة أي من وحدات معالجة الرسومات الثمانية مرة أخرى إلى وحدة المعالجة المركزية.

الشكل 5: مخطط إطار عمل SGX/HGXtoCPU الأساسي

في السنوات القليلة الماضية، أصبحت المؤسسات الكبيرة مهتمة بشكل متزايد بـ NVIDIA DGX لأن SXMGPU أكثر ملاءمة للنشر على نطاق واسع. كما هو مذكور أعلاه، فإن وحدات معالجة الرسوميات الثمانية H800 مترابطة بالكامل عبر تقنية التوصيل البيني NVLink وNVSwitch. في DGX وHGX، تختلف طريقة الاتصال لـ 8 SXMGPU عن PCIe؛ يتم توصيل كل وحدة معالجة رسومات بـ 4 شرائح NVLinkSwitch، مما يجعل جميع وحدات معالجة الرسومات تعمل بشكل أساسي كوحدة معالجة رسومات واحدة كبيرة. يمكن توسيع قابلية التوسع هذه بشكل أكبر باستخدام نظام NVIDIA NVLinkSwitch لنشر وتوصيل 256 DGXH800 لإنشاء مصنع ذكاء اصطناعي مسرع بواسطة GPU.

الشكل 6: مخطط إطار عمل 8PCIeGPUtoCPU الأساسي

DeepSeeK في عيون المحللين الأجانب

وبناءً على هذه الوحدات والأنظمة الرسومية، انتقد العديد من المحللين في الغرب فريق Deepseek لتحقيقه هذا الإنجاز. ومع ذلك، قال المحللون من nextplatform أنه إذا قرأت هذه الورقة المكونة من 53 صفحة بعناية، فستجد أن DeepSeek قد اعتمد العديد من التحسينات والأساليب البارعة لإنشاء نموذج V3. كما أنهم يعتقدون حقًا أن هذا قد أدى بالفعل إلى تقليل مشكلة عدم الكفاءة وتحسين أداء تدريب DeepSeek والاستدلال على الأجهزة.

ويعتقدون أن الابتكار الرئيسي في النهج الذي اتبعه فريق DeepSeek لتدريب النموذج الأساسي V3 هو استخدام 20 من أصل 132 معالجًا متعدد المعالجات (SMs) على وحدة معالجة الرسوميات Hopper كمسرعات اتصالات وجدولة للبيانات أثناء تشغيل التدريب لفحص الرموز المميزة وإنشاء أوزان النموذج من مجموعة عمق المعلمة أثناء تمرير البيانات حول المجموعة. تتوقع Nextplatform أن هذا "التداخل بين الحساب والاتصال يمكن أن يخفي زمن انتقال الاتصال أثناء الحساب"، كما تنص ورقة V3، باستخدام SM لإنشاء ما يعتبر بشكل فعال وحدة تحكم ذاكرة التخزين المؤقت L3 ومجمع البيانات بين وحدات معالجة الرسومات التي ليست على نفس العقدة.

كما شاركت منصة Nextplatform حول أوراقها البحثية، أنشأت DeepSeek وحدة DPU افتراضية لوحدة معالجة الرسومات (GPU) الخاصة بها لإجراء عمليات معالجة مختلفة تشبه SHARP تتعلق بالاتصال الشامل في مجموعة GPU.

كما ذكرنا سابقًا، قام فريق DeepSeek بتصميم خوارزمية DualPipe لتحقيق توازي فعال لخطوط الأنابيب. في هذا الصدد، تشير nextplatform إلى أنه إذا تمكنت DeepSeek من زيادة الكفاءة الحسابية على وحدات معالجة الرسوميات البالغ عددها 2048 وحدة إلى ما يقرب من 100%، فستبدأ المجموعة في الاعتقاد بأن لديها 8192 وحدة معالجة رسوميات (تفتقد بعض وحدات معالجة الرسوميات بالطبع) تعمل بكفاءة أقل لأنها لا تحتوي على DualPipe. للمقارنة، تم تدريب نموذج OpenAI's GPT-4 الأساسي على 8000 وحدة معالجة رسوميات Nvidia "Ampere" A100، وهو ما يعادل 4000 H100s (نوعًا ما).

بالإضافة إلى ذلك، بما في ذلك موازنة الحمل المساعدة بدون خسارة، ومعالجة FP8 منخفضة الدقة، وترقية العمليات الرياضية للمصفوفة عالية الدقة للنتائج المتوسطة في قلب الموتر إلى وحدة المتجهات في قلب CUDA للحفاظ على تمثيل عالي الدقة، وإعادة حساب جميع عمليات RMSNorm أثناء الانتشار العكسي وإعادة حساب جميع توقعات MLA التصاعدية هي أيضًا من بين ابتكارات DeepSeek.

على الرغم من أن ديلان باتل، من شركة SemiAnalogy، وهي منظمة معروفة لتحليل أشباه الموصلات، لديه شكوك حول التكاليف التي كشف عنها فريق DeepSeek. لكنهم يعترفون أيضًا بأن DeepSeek يتمتع بمزايا.

قالت شركة SemiAnalys أن DeepSeek-R1 يمكنه تحقيق نتائج مماثلة لـ OpenAI-o1، الذي تم إصداره في سبتمبر فقط. كيف تمكن DeepSeek من اللحاق بهذه السرعة؟ ويرجع ذلك أساسًا إلى أن الاستدلال أصبح نموذجًا جديدًا. بالمقارنة مع السابق، يمكن للاستدلال الآن أن يتكرر بشكل أسرع ويتطلب حسابات أقل، لكنه يمكن أن يحقق فوائد ذات معنى. وفي المقابل، اعتمد النموذج السابق على التدريب المسبق، وتكلفة التدريب المسبق تزداد أكثر فأكثر، ومن الصعب تحقيق مكاسب مستقرة.

وأشاروا إلى أن النموذج الجديد يركز على تمكين قدرات الاستدلال من خلال توليد البيانات الاصطناعية والبحث عن المعلومات في مرحلة ما بعد التدريب للنماذج الحالية، مما يؤدي إلى إيرادات أسرع وبأسعار أقل. إن انخفاض حاجز الدخول إلى جانب التحسينات البسيطة يعني أن DeepSeek قادر على تكرار أساليب o1 بشكل أسرع من أي وقت مضى.

"يعد R1 نموذجًا جيدًا للغاية، وليس لدينا أي اعتراض عليه، ومن المثير للإعجاب من الناحية الموضوعية أنه قد تمكن من اللحاق بميزة التفكير المنطقي بهذه السرعة." وشدد شبه التحليل. وخلصوا إلى:

من ناحية، يستخدم DeepSeekV3 تقنية التنبؤ متعدد الرموز (MTP: Multi-Token Prediction) على نطاق غير مسبوق. يمكن لوحدات الانتباه الإضافية (وحدات الانتباه) التنبؤ بعدة رموز مميزة بدلاً من رمز مميز واحد. يؤدي ذلك إلى تحسين أداء النموذج أثناء التدريب ويمكن التخلص منه أثناء الاستدلال. وهذا مثال على الابتكار الخوارزمي الذي يعمل على تحسين الأداء بجهد حسابي أقل. هناك بعض الاعتبارات الإضافية، مثل تحسين دقة FP8 أثناء التدريب؛

من ناحية أخرى، يعد DeepSeekv3 أيضًا مزيجًا من نماذج الخبراء، وهي نماذج كبيرة مكونة من العديد من النماذج الصغيرة الأخرى المتخصصة في مجالات مختلفة. إحدى الصعوبات التي تواجهها النماذج المتخصصة الهجينة هي كيفية تحديد الرمز المميز الذي سيتم تقديمه لأي نموذج فرعي أو "خبير". تطبق DeepSeek "شبكة بوابة" لتوجيه الرموز المميزة إلى الخبراء المناسبين بطريقة متوازنة لا تؤثر على أداء النموذج. وهذا يعني أن التوجيه فعال للغاية، مع عدد صغير فقط من تغييرات المعلمات لكل رمز مميز أثناء التدريب مقارنة بالحجم الإجمالي للنموذج. وهذا لا يؤدي إلى تحسين كفاءة التدريب فحسب، بل يقلل أيضًا من تكاليف الاستدلال؛

مرة أخرى، في حالة R1، سيستفيد بشكل كبير من وجود نموذج أساسي قوي (الإصدار 3). جزء من الإجابة يكمن في التعلم المعزز (RL).

يركز التعلم المعزز على محورين: التنسيق (التأكد من أنه يوفر مخرجات متماسكة) والفائدة وعدم الضرر (التأكد من أن النموذج لديه

يستخدم). تظهر قدرات الاستدلال عندما يتم ضبط النموذج على مجموعات البيانات الاصطناعية؛

كررت SemiAnalogy أن MLA هي تقنية DeepSeek المبتكرة الرئيسية التي تقلل بشكل كبير من تكلفة الاستدلال. والسبب هو أن MLA يقلل من مقدار ذاكرة التخزين المؤقت KV المطلوبة لكل استعلام بنسبة 93.3% تقريبًا مقارنة بالانتباه القياسي. ذاكرة التخزين المؤقت KV هي آلية في الذاكرة في نموذج المحول المستخدم لتخزين البيانات التي تمثل سياق المحادثة، وبالتالي تقليل الحسابات غير الضرورية.

التأثير المحتمل على رقائق نفيديا

كما ذكرنا في بداية المقال، بعد أن أصبح DeepSeek شائعًا، استجابت Nvidia بتراجع. لأنه إذا بدأت شركات التكنولوجيا الأمريكية الكبيرة في التعلم من DeepSeek واختيار حلول ذكاء اصطناعي أرخص، فقد يؤدي ذلك إلى الضغط على Nvidia.

بعد ذلك، قدمت إنفيديا تعليقات إيجابية حول تقدم DeepSeek. وقالت الشركة في بيان لها إن التقدم الذي أحرزته DeepSeek يعد دليلاً جيدًا على الطرق الجديدة لتشغيل نماذج الذكاء الاصطناعي. وقالت الشركة إن تقديم نماذج الذكاء الاصطناعي هذه للمستخدمين يتطلب عددًا كبيرًا من شرائح Nvidia.

ومع ذلك، قالت كاثي وود، المستثمر المعروف والرئيس التنفيذي لشركة Ark Investment، في مقابلة إن DeepSeek أثبت أن النجاح في مجال الذكاء الاصطناعي لا يتطلب الكثير من المال وسرع من انهيار التكاليف.

وقال صن وي، كبير محللي الذكاء الاصطناعي في شركة Counterpoint Research، إن عمليات بيع Nvidia تعكس وجهات نظر الناس المتغيرة بشأن تطوير الذكاء الاصطناعي. وأشارت أيضًا إلى أن "نجاح DeepSeek يتحدى الاعتقاد بأن النماذج الأكبر حجمًا وقدرة الحوسبة الأكثر قوة تؤدي إلى أداء أفضل، مما يشكل تهديدًا لاستراتيجية النمو المعتمدة على GPU من Nvidia."

أكد SemiAnalys على أن سرعة تحسين الخوارزمية سريعة جدًا، وهو ما يضر أيضًا بـ Nvidia ووحدات معالجة الرسومات.

حتى أن وسائل الإعلام الأمريكية "Fortune" حذرت من أن DeepSeek يهدد هيمنة Nvidia في مجال الذكاء الاصطناعي.

كما ذكرنا سابقًا، استخدمت DeepSeek شرائح منخفضة الأداء وأرخص لبناء أحدث موديلاتها، مما أدى أيضًا إلى الضغط على Nvidia، ويشعر بعض الناس بالقلق من أن شركات التكنولوجيا الكبيرة الأخرى قد تقلل الطلب على منتجات Nvidia الأكثر تقدمًا.

قالت كيت ليمان، كبيرة محللي السوق في AvaTrade، لمجلة Fortune: "يشعر المستثمرون بالقلق من أن قدرة DeepSeek على العمل مع شرائح الذكاء الاصطناعي الأضعف يمكن أن تقوض هيمنة Nvidia في أجهزة الذكاء الاصطناعي، خاصة وأن تقييمها يعتمد بشكل كبير على الطلب على الذكاء الاصطناعي".

ومن الجدير بالذكر أنه وفقًا لتقارير Tomshardware، فإن اختراق DeepSeek للذكاء الاصطناعي يتجاوز CUDA الخاص بـ NVIDIA خارج الصندوق، ويستخدم بدلاً من ذلك برمجة PTX الشبيهة بالتجميع، مما يزيد إلى حد ما مخاوف الجميع بشأن NVIDIA.

وفقًا للتقارير، فإن PTX (ParallelThreadExecution: Parallel Thread Execution) من Nvidia عبارة عن بنية مجموعة تعليمات وسيطة صممتها Nvidia لوحدة معالجة الرسومات الخاصة بها. تقع PTX بين لغات برمجة GPU عالية المستوى (مثل CUDAC/C++ أو الواجهات الأمامية للغات الأخرى) ورمز الجهاز منخفض المستوى (تجميع الدفق أو SASS). PTX عبارة عن ISA شبه معدني يعرض وحدة معالجة الرسومات كجهاز حوسبة متوازي للبيانات، مما يسمح بإجراء تحسينات دقيقة مثل تخصيص التسجيل وتعديلات مستوى الخيط/الالتواء التي لا تكون ممكنة مع CUDAC/C++ واللغات الأخرى. بمجرد دخول PTX إلى SASS، يتم تحسينه لجيل معين من وحدات معالجة الرسومات Nvidia.

عند تدريب نموذج V3، أعاد DeepSeek تكوين وحدة معالجة الرسوميات H800 من Nvidia: من بين 132 معالجًا متدفقًا متعددًا، خصص 20 معالجًا للاتصال من خادم إلى خادم، ربما لضغط البيانات وفك ضغطها للتغلب على قيود اتصال المعالج وتسريع المعاملات. لتحقيق أقصى قدر من الأداء، يقوم DeepSeek أيضًا بتنفيذ خوارزميات خطوط الأنابيب المتقدمة، ربما عن طريق ضبط مستوى الخيط/الالتواء فائق الدقة.

وأشار التقرير إلى أن هذه التعديلات تتجاوز نطاق التطوير القياسي على مستوى CUDA، ولكن من الصعب جدًا الحفاظ عليها.

ومع ذلك، صرح بريان كوليلو، الخبير الاستراتيجي في Morningstar، بصراحة أن دخول DeepSeek قد أضاف بلا شك حالة من عدم اليقين إلى النظام البيئي للذكاء الاصطناعي بأكمله، لكن هذا لم يغير الزخم الساحق وراء هذه الحركة. وكتب في مذكرة: "نعتقد أن الطلب على وحدات معالجة الرسوميات التي تعمل بالذكاء الاصطناعي لا يزال يفوق العرض". "لذا، في حين أن النماذج الأرق والأخف وزنًا قد تكون قادرة على تحقيق المزيد باستخدام نفس العدد من الرقائق، إلا أننا ما زلنا نعتقد أن شركات التكنولوجيا ستستمر في شراء جميع وحدات معالجة الرسومات التي يمكنها القيام بها كجزء من اندفاع الذكاء الاصطناعي نحو الذهب."

ويعتقد خبراء الصناعة مثل بات جيلسنجر، الرئيس التنفيذي السابق لشركة إنتل، أن تطبيقات مثل الذكاء الاصطناعي يمكن أن تستفيد من كل قوة الحوسبة التي يمكنهم الوصول إليها. أما بالنسبة للاختراق الذي حققه DeepSeek، فيرى جيلسنجر أنه وسيلة لإضافة الذكاء الاصطناعي إلى عدد كبير من الأجهزة الرخيصة في السوق الشامل.

كشفت شركة SemiAnalogy في تقريرها أن أسعار وحدة معالجة الرسوميات H100 AWS قد ارتفعت في العديد من المناطق منذ إصدار DeepSeekV3 وR1. من الصعب أيضًا العثور على سيارات H200 مماثلة. "بعد إطلاق V3، ارتفعت أسعار H100 بشكل كبير حيث بدأت معدلات تسييل وحدة معالجة الرسومات في الزيادة بشكل ملحوظ. المزيد من الذكاء بسعر أقل يعني المزيد من الطلب. وهذا تحول كبير عن الأسعار الفورية البطيئة لـ H100 في الأشهر السابقة." قال نصف التحليل

لذا، كيف تعتقد أن DeepSeek سوف يتطور؟ هل تستطيع رقائق Nvidia الاستمرار في الهيمنة على العالم؟