تم إصدار DeepSeek-V3.1 رسميًا: قدرات الوكيل الأقوى

اليوم، أعلنت DeepSeek رسميًا عن إطلاق DeepSeek-V3.1 رسميًا. وفقًا للتقارير، تتضمن هذه الترقية التغييرات الرئيسية التالية: بنية الاستدلال الهجين: يدعم نموذج واحد كلا من وضع التفكير ووضع عدم التفكير؛ كفاءة تفكير أعلى: مقارنة بـ DeepSeek-R1-0528، يمكن لـ DeepSeek-V3.1-Think تقديم الإجابات في وقت أقصر؛ قدرات الوكيل الأقوى: من خلال تحسين ما بعد التدريب، تم تحسين أداء النموذج الجديد في استخدام الأدوات ومهام الوكيل بشكل كبير.

تمت ترقية التطبيق الرسمي ونموذج الويب في وقت واحد إلى DeepSeek-V3.1. يمكن للمستخدمين التبديل بحرية بين وضع التفكير ووضع عدم التفكير من خلال زر "التفكير العميق".

وكيل البرمجة: في تقييم إصلاح التعليمات البرمجية SWE واختبار المهمة المعقدة (Terminal-Bench) في بيئة محطة سطر الأوامر، تحسن DeepSeek-V3.1 بشكل ملحوظ مقارنة بنماذج سلسلة DeepSeek السابقة.

وكيل البحث: حقق DeepSeek-V3.1 تحسينات كبيرة في مؤشرات تقييم البحث المتعددة. في اختبار البحث المعقد (browsecomp) الذي يتطلب تفكيرًا متعدد الخطوات والاختبار الصعب على مستوى الخبراء متعدد التخصصات (HLE)، كان أداء DeepSeek-V3.1 متقدمًا بشكل ملحوظ على R1-0528.

تظهر نتائج الاختبار أنه بعد التدريب على ضغط سلسلة الأفكار، فإن متوسط أداء V3.1-Think في المهام المختلفة هو نفس R1-0528 بينما يتم تقليل عدد الرموز المميزة للإخراج بنسبة 20%-50%. وفي الوقت نفسه، تم أيضًا التحكم بشكل فعال في طول إخراج V3.1 في وضع عدم التفكير. بالمقارنة مع DeepSeek-V3-0324، يمكنه الحفاظ على نفس أداء النموذج مع طول إخراج منخفض بشكل كبير.

بالإضافة إلى ذلك، بدءًا من الصباح الباكر من يوم 6 سبتمبر، سيتم تعديل سعر استدعاء واجهة برمجة تطبيقات DeepSeek للمنصة المفتوحة على النحو التالي.