لقد حدث انفجار في الذكاء الاصطناعي المحلي في الأيام القليلة الماضية. أصدرت كل من GLM-5، وMinimax 2.5، وDeepSeek جميعها نماذج كبيرة جديدة في نفس اليوم (اليوم الحادي عشر)، والتي جذبت DeepSeek أكبر قدر من الاهتمام بشكل طبيعي. لقد أبلغنا من قبل أن هذا التحديث يعمل بشكل أساسي على تحسين قدرة السياق، حيث وصل إلى 1M، بينما كانت سلسلة DeepSee V3 السابقة 128K، وهو أعلى 7 مرات من الطراز الكبير السابق لسلسلة V3.

كما أكد DeepSeek هذا رسميًا في المجموعة الرسمية الليلة،يشير إلى أن صفحة الويب وإصدار التطبيق يختبران بنية نموذج نص طويل جديد ويدعمان سياق 1M.

وفي الوقت نفسه، أكد DeepSeek أيضًا على أن خدمة API لم تتغير. لا يزال نموذجًا كبيرًا لسلسلة V3.2 ويدعم سياق 128 كيلو فقط.

انطلاقًا من تقديم DeepSeek، فإن هذا النموذج الجديد لا يزال نموذجًا نصيًا. التحسين الرئيسي هو القدرة السياقية، وهي أيضًا مهمة جدًا في العديد من المجالات. أثناء المحادثات الطويلة، من السهل أن لا تتمكن العارضات الكبيرة من تذكر المحتوى السابق بسبب عدم كفاية السياق.

على الرغم من وجود العديد من الاختبارات الفعلية على الإنترنت والتي أظهرت أن نموذج DeepSeek الكبير هذا قد تحسن بشكل كبير من حيث البرمجة وسرعة الإخراج وما إلى ذلك.ولكن مقارنة بالتوقعات السابقة فإن هذا التحديث حتماً مخيب للآمال بعض الشيء.

من الواضح أن النموذج الكبير هذه المرة ليس V4، ولكن على الأرجح V4 Lite، لأنه تم الإبلاغ عن أن عدد المعلمات يبلغ 200 مليار فقط، وهو أقل بكثير من 670 مليارًا لسلسلة V3، لذلك من الطبيعي أن تكون بعض القدرات أسوأ من V3.

ومن المتوقع أن هذا النموذج هو V4 لايت. من غير المرجح أن تقوم DeepSeek بإصدار نموذج V4 كبير واحد فقط في المستقبل. بدلا من ذلك، سيكون هناك إصدارات مختلفة. كل سلسلة لها اتجاهات وتصميمات مختلفة. يعد V4 Lite الحالي مجرد مستكشف، لذلك لا يوجد الكثير من التحسن. علاوة على ذلك، لم يقدم مسؤولو DeepSeek تفاصيل عن بنيته التقنية، ولم يتم نشر المزيد من المعلومات بعد.

تحتوي النسخة الكاملة DeepSeek V4 المُشاع عنها على 1.5 تريليون معلمة، أي أكثر من ضعف سلسلة V3.كما سيتم استخدام تقنيات جديدة مثل Engram وmHC التي سبق أن درستها DeepSeek.تم تحسين الأداء بشكل شامل بينما لا تزال التكلفة منخفضة. وهذا التوقع لا يزال مرتفعا جدا.