لم يتبق سوى أيام قليلة حتى أواخر أبريل، وقد لامس إصدار النموذج الكبير DeepSeek V4 قلوب الناس. بالأمس، قام باحثو الشركة فجأة بتحديث مكتبة مشغل DeepGEMM، والتي تعتبر بمثابة مقدمة لإصدار V4. ولكن من الواضح أنهم توقعوا رد فعل العالم الخارجي، وأضافوا توضيحًا إضافيًا بعد التحديث،تم التأكيد على أن هذا التحديث يتعلق فقط بتطوير DeepGEMM وليس له أي علاقة بإصدار النموذج الداخلي.وهذا يعني، لا تفكر كثيرًا، وهذا لا يعني أنه سيتم إصدار V4.

ومع ذلك، كلما تم الإدلاء بهذا البيان أكثر، زاد اهتمام الأشخاص بـ DeepSeek V4، نظرًا لوجود العديد من النقاط البارزة في هذه الموجة من تحديثات DeepGEMM، ولا يمكن أن تكون مرتبطة بالنموذج الكبير V4.
بالإضافة إلى دعم المشغل المختلط FP8_FP4 وتحسين الدعم لـ NVIDIA Blackwell، يتضمن هذا التحديث بشكل أساسي Mega MoE وHyperConnection. قد تقدم Mega MoE ترقية كبيرة لبنية وزارة التربية والتعليم.
تتمتع Mega MoE بالعديد من الفوائد، وهناك العديد من الشروحات على الإنترنت.ويشير تحليل جيميني إلى أن عدد الخبراء المنشطين في الإصدار الرابع سيكون أعلى بكثير من عدد الخبراء البالغ عددهم 256 في الإصدار الثالث، وربما يصل إلى الآلاف.من الواضح أن هذا سيؤدي إلى تحسين أداء V4 بشكل كبير، مع الحفاظ على المرونة وعدم المبالغة في الطلب على قوة الحوسبة وذاكرة الفيديو.

والأهم من ذلك، أن هذا التحديث لـ DeepGEMM يشير أيضًا إلى مقدار المعلمة للنموذج الكبير V4. قال مستخدمو الإنترنت أن MoE ذو الطبقة الواحدة يبلغ حوالي 25.37B.إذا كان لا يزال 60 طبقة، فمن المرجح أن يكون V4 نموذجًا كبيرًا 1.6T، أو في أسوأ الأحوال سيكون نموذجًا كبيرًا مكونًا من 48 طبقة 1.25T.
بالمقارنة مع الشائعات السابقة التي تفيد بأن V4 يحتوي على 1 تريليون معلمة، فإن المعلمات 1.6T تعني أنها أعلى بنسبة 60% من التوقعات السابقة، لذا فإن الأداء يستحق التطلع إليه.
في حالة عدم تحقيق 1.6T، سيتم مضاعفة حجم المعلمة البالغ 1.25T مقارنة بـ 670 مليار معلمة لمحرك V3 الحالي. لا يزال بإمكاننا أن نتطلع إلى الأداء. بعد كل شيء، إذا تمكنت تقنية Mega MoE من تنشيط الآلاف من الخبراء مرة أخرى، فسيكون ذلك بالتأكيد تحولًا وحدثًا بارزًا في تطوير نماذج كبيرة من بنية MoE.