لدى DeepSeek تحديث كبير آخر وهذه المرة أصبح مرئيًا أخيرًا

D الله على الهواء مرة أخرى؟ حقيقي أم مزيف؟ لقد ظل Deepseek يعيقه لفترة طويلة، وبدأ مؤخرًا في السماح له بالخروج. في الأسبوع الماضي، أطلقوا بهدوء محرك V4، متبوعًا بتخفيضين كبيرين في الأسعار. . ليانغ شين، هل أتيت لإنقاذ جميع الكائنات الواعية مرة أخرى؟ ونتيجة لذلك، جاء اليوم فجأة ودفعني إلى موجة من الاختبارات الرمادية:يتمتع DeepSeek بقدرات متعددة الوسائط، خاصة التعرف على الصور.

لقد تحققت من البطاقات وهذا صحيح.

أولئك الذين يريدون تجربة شيء جديد يمكنهم فتح DeepSeek وإلقاء نظرة الآن.

إذا كان هناك "وضع التعرف على الصور" في الواجهة، فتهانينا، فأنت الشخص المحظوظ الذي خضع للاختبار الداخلي، ويمكنك شراء الإصدار الحقيقي متعدد الوسائط من V4 مجانًا.

لم يستطع تشين شياو كانغ، الباحث الخاص بشركة DeepSeek، إلا أن ينشر منشورًا. نحن الحيتان أخيرًا أصبح لدينا عيون ولم نعد رهبانًا عميانًا في الخادم الوطني!

لماذا يتفاعل الجميع بحماس شديد؟ في الواقع، تم انتقاد DeepSeek لفترة طويلة لأنه لا يحتوي على وسائط متعددة. تتمتع الشركات الأجنبية العملاقة الثلاثة ChatGPT وGemini وClaude منذ فترة طويلة بقدرات متعددة الوسائط. كما حققت النماذج المحلية مثل Doubao وQianwen أداءً جيدًا للغاية.

وأنت، الضوء المنتج محلياً والذي يعلق آمالاً كبيرة، لم تتمكن من التعرف حتى على الصورة لسنوات عديدة. ويمكن الاعتماد فقط على تقنية التعرف الضوئي على الحروف (OCR)، مما يعني التعرف على النص الموجود في الصورة. لقد تم بالفعل تحسين تجربة الاستخدام.

والآن، تم سد هذا النقص أخيراً.

دون مزيد من اللغط، دعونا ننتقل مباشرة إلى الاختبار.

بادئ ذي بدء، فهو يتخلص من تقنية التعرف الضوئي على الحروف التقليدية ويمكنه حقًا رؤية الصورة بأكملها، وهو ما يمكن للجميع الاطمئنان إليه.

على سبيل المثال، قدمنا لها صورة "هذا سطر من النص الأحمر" مكتوب باللون الأزرق. إذا استخدمنا تقنية التعرف الضوئي على الحروف التقليدية فقط، فيمكنها التعرف فقط على أن النص هو "هذا سطر من النص الأحمر" ولن يتعرف أبدًا على أنه باللون الأزرق. (وقد لا يتم التعرف عليها حتى)

بعد تشغيل الوضع المرئي، يمكنه التعرف بدقة على أن هذا عبارة عن سطر من الحروف الزرقاء والحمراء، بل ويشعر بروح الدعابة الخاصة بي.

ليس ذلك فحسب، بل إنه يتمتع أيضًا بقدرات التفكير البصري.

هل رأيتم جميعا هذا ميمي؟ أعتقد أنه بذكائي أستطيع بالتأكيد أن أفهم ما هو مكتوب في الصورة.

لذلك أرسلته إلى DeepSeek وطلبت منه مساعدتي في تحليل نقاط الضحك.

بعد التفكير في الأمر، لم يرها فحسب، بل قام أيضًا بعمل ترجمة محلية لـ "Golden Dalia" و"Silver Dalia" و"Bronze Dalia"، مما جعله يضحك قليلاً.

ثم أرسلت لها صورة عشوائية التقطها أحد زملائي أثناء القيادة. لقد كان في الواقع ضبابيًا تمامًا، ولا يمكن تحليل سوى بعض المعلومات حول المظهر وتأثيرات الإضاءة.

وفي النهاية، خمنت أن السيارة كانت بالفعل من طراز سوبارو، وتوصلت إلى هذا الاستنتاج بعد تفكير لمدة 13 ثانية.

نظرًا لأن المعلم D هو أستاذ في الرياضيات، أرسلنا له ميمًا آخر متعلقًا بالرياضيات. لأكون صادقًا، لم يفهم Shichao الأمر تقريبًا لأنه ولد من صهره.

لا يزال شرح المعلم د مثاليًا.

لم يفهم العمليات البسيطة فحسب، بل رأى فيها عدة متجانسات: أخذ الجزء الحقيقي يعني إزالة الرقم التخيلي "i"، والذي يعني إزالة "العين"، وهو ما يعني إزالة العيون. المثلث المقلوب هو التدرج، وهو "Grad"، وهو تقريبًا نفس "Graduate"، لذلك أضع قبعة البكالوريوس على وجهي الصغير.

أولئك الذين نسوا معرفتهم الرياضية يمكنهم مراجعتها كلمة بكلمة.

بالمناسبة، لقد اختبرت أيضًا بعض المشكلات في الحياة اليومية، مثل مكان إدخال القابس مقاس 3.5 مم.

أين يجب توصيل منفذ USB المربع هذا؟

على الرغم من أنه بسيط للغاية، إلا أنه يمكنه فهم لقطاتي العشوائية التي ليست في نطاق التركيز، ويمكن اعتباره مؤهلاً للمهام اليومية.

ولكن في الواقع، وفقًا لقياسات Shichao الفعلية، فإن الإصدار الحالي للمعلم D ليس منيعًا.

على سبيل المثال، دعونا نلقي صورة لها، منظر ليلي جميل جدًا للأرض.

كما رآها DeepSeek بوضوح تام وقال إن هذه الصورة جاءت من محطة الفضاء الدولية.

لكن في الحقيقة، إذا قلبت الصورة ونظرت إليها، ستجد أن هذه الصورة هي صورة للمدينة تحت غروب الشمس. هذه وجهة نظر معكوسة..

ثم ألقيتها إلى جيميني، وهو خبير معروف في الوسائط المتعددة... وقد رأى ذلك بالفعل. لا، هل أنت قوي لهذه الدرجة حتى لو أصبحت حكيماً؟

هل ما زلت غير قادر على جعل الملك متعدد الوسائط يبذل قصارى جهده، حاجي ويل؟

بما في ذلك التعرف على بعض الوجوه، فإنه يواجه أيضًا مشكلات في بعض الأحيان. على سبيل المثال، ألقيت عليها صورة كيس فول، وما تعرفت عليه بالنسبة لي هو، حسنًا، لوه شيانغ، قائد UP للمحطة B.

هناك أيضًا مشكلة الوهم البصري الكلاسيكية. من الواضح أن الكرتين ليسا بنفس الحجم، أليس كذلك؟ ونتيجة لذلك، فكر المعلم د في الأمر وأخبرني أن الكرتين لهما نفس الحجم.

ومع ذلك، فقد ألقيت نظرة أيضًا على عملية التفكير. في الواقع، لقد رأيت بالفعل أن الكرة التي على اليمين أكبر، لكن لأنني قرأت السؤال بعناية، شعرت أن هذا وهم مُعطى لها، لذلك اخترت أن أخدع نفسي وقلت إنهما بنفس الحجم. .ربما يكون التعلم المعزز قويًا جدًا.

يمكن إعطاء تقييم شامل لازدواجية الآلهة والأشباح. عند الدك، والدك، وعند السحب، يتم الانتهاء من ذلك. .

لكن مرة أخرى، لقد طور DeepSeek عيونه للتو، لذلك لا يزال يتعين علينا منحه بعض الوقت للتكيف مع هذا العالم.

أخيرًا، لقد تجاوزت المعركة الحالية لعمالقة الذكاء الاصطناعي مرحلة القرية المبتدئة التي نظرت فقط إلى نتائج التشغيل وقدرات إخراج النص.

يعد مستوى الترميز والقدرات متعددة الوسائط وسلاسة أدوات الاتصال وما إلى ذلك أمرًا لا غنى عنه بشكل أساسي.

لكن الغياب السابق لمعلم Big D في القدرات متعددة الوسائط كان دائمًا أمرًا مؤسفًا. يبدو أن الجميع يطنين ويعملون، لكن قدرات وكيل DeepSeeK تقل بشكل كبير بسبب نقص الأذرع والعيون.

بعد كل شيء، معظم النماذج وواجهات برمجة التطبيقات الحالية متعددة الوسائط، أو على الأقل لديها إمكانات إدخال الصور.

نأمل أيضًا أن يتمكن DeepSeek من تحديث الإمكانات المتعددة الوسائط للتعرف على الصور إلى واجهة برمجة التطبيقات (API) الخاصة بنموذج V4 الجديد في أقرب وقت ممكن.

كما تعلمون، قبل أن أكون معصوب العينين، كنت قد قاتلت بالفعل العديد من المعارضين ذهابًا وإيابًا. . الآن اخلع العصابة عن العينين، ومن المتوقع أن يتحسن أداء أدوات مثل Claude Code وLobster وCowork وما إلى ذلك بشكل كبير.

بالإضافة إلى ذلك، انطلاقًا من التكرار الذي يقوم به DeepSeek بنفخ الفقاعات لزيادة وجوده خلال هذه الفترة، فمن المقدر أنه لا يزال هناك الكثير من المجموعات في انتظار تنفيذها.

دون مزيد من اللغط، دعونا نشاهد أداء المعلم د.