في يوم الأربعاء، أعلنت OpenAI للتو عن رفع الحظر المفروض على قدرات ChatGPT متعددة الوسائط. الآن، بمجرد أن يتم نشره على الإنترنت، يصاب مستخدمو الإنترنت بالجنون على الفور. بعد ذلك، دعونا نلقي نظرة على مدى قوة إمكانيات التعرف على الصور في ChatGPT.

01

التقط صورة وقم بتحميلها، وسيتم إنشاء الرمز على الفور

قام أحد مستخدمي الإنترنت بتسجيل مقطع فيديو وتحميل صورة السبورة أثناء الاجتماع، ثم طلب من ChatGPT كتابة الرمز.


يمكنك أيضًا تحميل رسم تخطيطي مرسوم يدويًا ومطالبة ChatGPT بإنشاء صفحة ويب بتنسيق HTML.


ووش ووش، الرمز كان يخرج كل دقيقة.

هذه ببساطة هي القدرة متعددة الوسائط التي أظهرها جريج بروكمان عندما تم إصدار GPT-4 للتو هذا العام.


على سبيل المثال، التقط صورة لدفتر ملاحظاتك todolist.


ثم اسمح لـ GPT-4 بإنشاء PythonTkinterGUI، وبعد ذلك تم تنفيذه...


02

مخطوطات التمرير القديمة، مترجمة في لمحة

إليكم مخطوطة أخرى مأخوذة من الكيميائي روبرت بويل الذي عاش في القرن السابع عشر. هل يستطيع GPT-4 قراءته؟


هذه قطعة من الكعكة لذلك.


على سبيل المثال. “الدليل الطبي الكاتالوني عن المومياوات الطبية”.


يمكن لـ ChatGPT أيضًا النسخ والترجمة.


وقال بنجامين برين، أستاذ التاريخ المشارك في جامعة كاليفورنيا، سان فرانسيسكو:

وسيكون لهذا تأثير كبير على المؤرخين. تخيل جهاز GPT-4 مخصصًا متعدد الوسائط تم تدريبه على مجموعة محددة من المخطوطات. لا يمكنه النسخ فحسب، بل يمكنه أيضًا الترجمة والتصنيف. (إن الكتابة بدون ماجستير في القانون هي مشكلة كبيرة في رأيي).


03

ملخص الرسم البياني جيد جدًا أيضًا 6

يمكنك أيضًا إصدار أمر GPT-4 لاستخراج البيانات بناءً على المخطط.


يمكن بعد ذلك إنشاء كود بايثون لتكرار المخطط وجعله أشبه بالمخطط.


ثم قم بوضع مخطط اتجاه السهم عليه، ويمكنه أيضًا تحليل وتلخيص الخصائص.


04

قراءة الصور "لديك معدل ذكاء متفوق"

أعط GPT-4 صورة مجردة.

يمكنها في الواقع أن تحدد بدقة استعارة "أهمية التواصل" التي تريد هذه الصور الأربع التعبير عنها. هذا أمر شائن.


ويمكن لـGPT-4V قراءة خط يد الأطباء.



استخدم بعض مستخدمي الإنترنت اليابانيين Sun Wukong مباشرة من "Dragon Ball" لإجراء اختبار ChatGPT.


هناك أيضًا العديد من رموز التحقق "هل أنت إنسان".


قم بتحميل جزء من عملك الخاص، ويمكن أن يقدم لك GPT-4 أيضًا اقتراحات للتحسين.


اكتشف بعض مستخدمي الإنترنت أن GPT-4V أعطى الإجابة الصحيحة على هذا السؤال في ورقة kosmos-1، ولكن كان هناك خطأ في عملية التفكير.


مع هذه الميزة، لم يعد الأطفال بحاجة إلى القيام بالواجبات المنزلية.


05

الملخص الكبير لمستخدمي الإنترنت

بالإضافة إلى التجربة المذكورة أعلاه، كتب بعض مستخدمي الإنترنت مقالًا طويلًا يعرضون فيه اختبارهم الخاص لـ GPT-4V.


اختبار واحد:أسئلة وأجوبة مرئية

أعطني رمزًا تعبيريًا وشاهد مدى فهم GPT-4V له؟


يشرح GPT-4V بنجاح سبب كونه مثيرًا للاهتمام ويذكر المكونات الفردية للصورة وكيفية اتصالها.

ومن الجدير بالذكر أن GPT-4V قادر على قراءة التعليقات المقدمة بين قوسين والرد عليها.

ومع ذلك، ارتكب GPT-4V خطأً، حيث أطلق عليه اسم "NVIDIABURGER" بدلاً من "GPU".

ثم اختبرها مرة أخرى بعملة معدنية، وهي صورة بنس أمريكي. GPT-4V قادر على تحديد أصل العملة وفئتها بنجاح.


ولكن إذا كانت صورة لعدة عملات معدنية واسأل GPT-4V، ما هو مقدار المال الذي أملكه؟

في هذه المرحلة، يمكنه فقط تحديد عدد العملات، وليس نوع العملة.


الاختبار 2: التعرف الضوئي على الحروف

التقاط الصور النصية من صفحات الويب وتحميلها. يستطيع GPT-4V قراءة المحتوى جيدًا.


الاختبار 3: الرياضيات التعرف الضوئي على الحروف

يعد التعرف الضوئي على الحروف الرياضي شكلاً خاصًا من أشكال التعرف البصري على الأحرف الذي يستهدف المعادلات الرياضية.

سأل أحد مستخدمي الإنترنت GPT-4V عن مشكلة رياضية وقدمها في شكل لقطة شاشة للمستند.

تتضمن هذه المشكلة حساب طول خط السحاب بمعلومية زاويتين، مع ظهور رسالة "حلها" على الصورة.



يحدد النموذج المشكلات التي يمكن حلها باستخدام علم المثلثات، ويحدد الوظائف التي سيتم استخدامها، ويقدم إرشادات خطوة بخطوة حول كيفية حل المشكلة. ثم يقدم GPT-4V الإجابة الصحيحة على السؤال.

ومع ذلك، تشير بطاقة النظام GPT-4V إلى أن النموذج قد يفتقد رموزًا رياضية.

قد تشير الاختبارات المختلفة، بما في ذلك الاختبارات التي تحتوي على معادلات أو تعبيرات مكتوبة بخط اليد على الورق، إلى عدم قدرة النموذج على الإجابة على أسئلة الرياضيات.

الاختبار 4: الكشف عن الأشياء

اسمح لـ GPT-4V باكتشاف كلب في صورة ما وتوفير قيم x_min وy_min وx_max وy_max المتعلقة بموضع الكلب. إحداثيات المربع المحيط التي أرجعها GPT-4V لا تتطابق مع موضع الكلب.


على الرغم من أن GPT-4V قوي جدًا في الإجابة على أسئلة الصور، إلا أن هذا النموذج لا يمكنه أن يحل محل نماذج اكتشاف الكائنات ذات الضبط الدقيق عندما تريد معرفة مكان وجود الكائن في الصورة.

الاختبار 5: رمز التحقق

تبين أن GPT-4V قادر على التعرف على الصور التي تحتوي على رموز التحقق، لكنه غالبًا ما يفشل في الاختبار.

في أحد الأمثلة على اختيار شبكات إشارات المرور، اختار GPT-4V عددًا أقل من الشبكات التي تحتوي على إشارات المرور.


الاختبار السادس: الكلمات المتقاطعة والسودوكو

في اختبار سودوكو، تعرف GPT-4V على اللعبة ولكنه أساء فهم بنية اللوحة وبالتالي أعاد نتائج غير دقيقة.


بالمناسبة، عادت وظيفة شبكة ChatGPT.