أصدرت DeepSeek نموذجًا منطقيًا متعدد الوسائط وتقريرًا فنيًا على GitHub، بعنوان "التفكير باستخدام البدائيات المرئية (التفكير باستخدام البدائيات المرئية)".تم بناء هذا النموذج استنادًا إلى DeepSeek V4-Flash (إجمالي المعلمات 284B، وبنية 13B MoE التي تم تنشيطها أثناء الاستدلال)، ويقترح نموذجًا جديدًا للاستدلال متعدد الوسائط.


تشير الورقة إلى أن هناك اختناقًا أساسيًا تم تجاهله في النماذج الكبيرة متعددة الوسائط الموجودة: "الفجوة المرجعية"، أي أن النموذج يمكنه "رؤية" محتوى الصورة، ولكن عند استخدام اللغة الطبيعية لبناء سلسلة فكرية أثناء عملية الاستدلال، فإن الأوصاف الغامضة مثل الجسم الأحمر الكبير على اليسار بالقرب من المركز لا يمكنها تحديد موقع الكائن المرئي بدقة في مشهد كثيف، مما يتسبب في انحراف الانتباه واستخلاص استنتاجات خاطئة.

في السابق، كانت الاستجابة السائدة في المجتمع الأكاديمي هي تحسين الدقة الإدراكية، لكن الورقة البحثية تعتقد أن الرؤية والقدرة على معرفة ما يقال بوضوح هما شيئان مختلفان.

الابتكار الأساسي لهذا النموذج هو تضمين إحداثيات النقاط والمربعات المحيطة في عملية التفكير نفسها، مما يجعلها الوحدة الأساسية لسلسلة التفكير. في كل مرة يذكر فيها النموذج كائنًا مرئيًا أثناء الاستدلال، يتم إخراج إحداثياته ​​بشكل متزامن.

على سبيل المثال، "ابحث عن دب [452، 23، 804، 411]، يتسلق شجرة، واستبعده، وانظر إلى أسفل اليسار، وابحث عن دب آخر [50، 447، 647، 771]، يقف على حافة الصخرة، مستوفيًا للشروط." لم تعد الإحداثيات عبارة عن إجابات تم تحديدها بعد وقوعها، بل أصبحت بمثابة نقاط ارتكاز مكانية لإزالة الغموض أثناء عملية التفكير.


وعلى المستوى المعماري يحقق النموذج ضغطاً بصرياً يصل إلى 7056 مرة. تتم معالجة صورة بحجم 756 × 756 بواسطة ViT لإنشاء 2916 رمزًا مميزًا لكتلة الصور، والتي يتم دمجها في 324 رمزًا مميزًا من خلال الضغط المكاني 3 × 3. يتم ضغط ذاكرة التخزين المؤقت لـ KV أيضًا 4 مرات من خلال آلية الانتباه المتناثر المضغوط (CSA)، مما يترك 81 إدخالًا مرئيًا لـ KV فقط.

كمرجع، تتطلب الصورة ذات الحجم نفسه لـ Claude Sonnet 4.6 حوالي 870، وتتطلب Gemini-3-Flash حوالي 1100.

فيما يتعلق ببيانات التدريب، قام الفريق بفحص ما يقرب من 31,700 مصدر بيانات عالي الجودة من حوالي 100,000 مجموعة بيانات للكشف عن الأهداف وأنتج أكثر من 40 مليون عينة تدريب، تغطي أربعة أنواع من المهام: العد، والتفكير المكاني، والملاحة في المتاهة، وتتبع المسار.

يعتمد ما بعد التدريب على الخبرة أولاً ومن ثم استراتيجية التوحيد، ويقوم بتدريب نموذجين خبيرين للمربع المحيط وإحداثيات النقطة على التوالي. وبعد التحسين عن طريق التعلم المعزز، يتم دمجها في نموذج موحد من خلال تقطير السياسات عبر الإنترنت.

وتمت مقارنة النتائج التجريبية مع النماذج السائدة مثل Gemini-3-Flash، وGPT-5.4، وClaude Sonnet 4.6 في 11 اختبارًا معياريًا.


في مهمة العد، حقق Pixmo-Count درجة مطابقة تامة قدرها 89.2%، متجاوزًا 88.2% لـ Gemini-3-Flash، ومتقدمًا بشكل ملحوظ على 76.6% لـ GPT-5.4 و68.7% لـ Claude Sonnet 4.6.

تظهر الفجوة الأكثر تمثيلاً في الاستدلال الطوبولوجي: درجة التنقل في المتاهة هي 66.9%، GPT-5.4 50.6%، Gemini-3-Flash 49.4%، كلود سونيت 4.6 48.9%، بزيادة قدرها حوالي 17 نقطة مئوية؛ درجة تتبع المسار هي 56.7%، وGPT-5.4 هي 46.5%.

ومع ذلك، تشير الورقة أيضًا إلى القيود الحالية: يحتاج النموذج إلى كلمة تشغيل واضحة لتمكين الآلية البدائية البصرية، ودقة الإحداثيات في المشاهد الدقيقة للغاية محدودة، ولا يزال هناك مجال للتحسين في قدرات التعميم عبر المشهد.