في 18 يونيو، نشر الباحث متعدد الوسائط DeepSeek Chen Xiaokang أن وضع التعرف على الصور الخاص بـ DeepSeek قد تم إطلاقه رسميًا على الويب والتطبيق. وجد الاستعلام أن وضع التعرف على الصور على جانب التطبيق في DeepSeek لا يزال يطالب "وظيفة فهم الصورة قيد الاختبار الداخلي"، ولكن لا يوجد مثل هذا المطالبة على صفحة الويب.



ومع ذلك، فقد وجدت اختبارات الوسائط أن DeepSeek أقل دقة في تحديد الأشخاص. على سبيل المثال، لم يتمكن من التعرف على رئيسه Liang Wenfeng. في لحظة تعرفت عليه على أنه وانغ شينغ، وفي لحظة أخرى تعرفت عليه كشخص آخر.


ومع ذلك، فإن تحديد الأشياء الشائعة والمباني المعروفة كان دقيقًا نسبيًا.

وفقا للتقارير، قبل شهرين، تم إطلاق وضع التعرف على الصور DeepSeek رسميًا بالتدرج الرمادي. باعتباره بوابة تفاعل بصري أصلية، يعد وضع التعرف على الصور DeepSeek وظيفة مستقلة من المستوى الأول إلى جانب الوضع السريع والوضع الخبير. إنه يتخلص تمامًا من قيود القدرة على نماذج النص الخالص المبكرة ويحقق تجربة حوار متكاملة مع الصور والنصوص.
تجدر الإشارة إلى أن وضع التعرف على الصور DeepSeek ليس أداة بسيطة لاستخراج نص الصورة أو أداة OCR بسيطة، ولكنه يعتمد على آلية التدفق السببي البصري DeepSeek-OCR2 المطورة ذاتيًا لبناء حلقة مغلقة كاملة للفهم البصري. يحتاج المستخدمون فقط إلى تحميل الصور مباشرة مع الأسئلة النصية، ويمكن للنظام إكمال التعرف على الكائنات وتحليل المشهد وتفكيك المخططات واستخراج النصوص الدقيقة والتنقيب عن التفاصيل في نفس الوقت.
يُذكر أن DeepSeek أكملت مؤخرًا تمويلها من السلسلة A، بمبلغ تمويل يبلغ حوالي 51 مليار يوان، وتقييم الشركة بعد الاستثمار بحوالي 400 مليار يوان.