تواجه معظم أنظمة الذكاء الاصطناعي صعوبة في قراءة الساعات وحساب التواريخ، مع معدلات خطأ تصل إلى 75%

أدوات الذكاء الاصطناعي التوليدية قادرة على أداء المهام التي بدت ذات يوم وكأنها مادة من الخيال العلمي، لكن معظمها لا يزال يعاني من العديد من المهارات الأساسية، بما في ذلك قراءة الساعات التناظرية والتقويمات. توصلت دراسة جديدة إلى أن أنظمة الذكاء الاصطناعي بشكل عام تقرأ وجوه الساعة بشكل صحيح في أقل من ربع الوقت.

قام فريق بحث في جامعة إدنبره باختبار بعض أفضل نماذج اللغة متعددة الوسائط واسعة النطاق لمعرفة مدى قدرتها على الإجابة على الأسئلة بناءً على صور الساعات والتقويمات.

تشمل الأنظمة التي تم اختبارها Gemini2.0 من GoogleDeepMind، وAnthropic's Claude3.5Sonnet، وMeta's Llama3.2-11B-Vision-Instruct، وQwen2-VL7B-Instruct من Alibaba، وMiniCPM-V-2.6 من ModelBest، وGPT-4o وGPT-o1 من OpenAI.

تظهر في الصورة أنواع مختلفة من الساعات: تلك التي تحتوي على أرقام رومانية، وتلك التي تحتوي على عقارب الثواني، والأخرى التي لا تحتوي على عقارب الثواني، والأقراص ذات الألوان المختلفة، وما إلى ذلك.

يقرأ النظام الساعة بشكل صحيح في أقل من 25% من الوقت. إنهم يعانون أكثر مع الساعات التي تستخدم الأرقام الرومانية والعقارب المنمقة.

لم يتحسن أداء الذكاء الاصطناعي عندما تمت إزالة عقرب الثواني، مما دفع الباحثين إلى الاعتقاد بأن المشكلة جاءت من اكتشاف عقارب الساعة وتفسير الزوايا على وجه الساعة.

وباستخدام صور تقويم مدتها 10 سنوات، طرح الباحثون أسئلة مثل أي يوم من أيام الأسبوع هو يوم رأس السنة الجديدة؟ حتى أنجح نماذج الذكاء الاصطناعي تخطئ في حل مشكلة التقويم بنسبة 20% من الحالات.

تختلف معدلات النجاح حسب نظام الذكاء الاصطناعي المستخدم. سجل Gemini-2.0 أعلى النتائج في اختبار الساعة، بينما حقق GPT-01 دقة بنسبة 80% في سؤال التقويم.

وقال قائد الدراسة روهيت ساكسينا من كلية المعلوماتية بجامعة إدنبره: "لقد نشأ معظم الناس على معرفة الوقت واستخدام التقويمات". "تسلط النتائج الضوء على الفجوات الهائلة في قدرة الذكاء الاصطناعي على أداء المهارات البشرية الأساسية. ويجب معالجة أوجه القصور هذه إذا أردنا دمج أنظمة الذكاء الاصطناعي بنجاح في تطبيقات العالم الحقيقي الحساسة للوقت مثل الجدولة والأتمتة والتكنولوجيا المساعدة."

وقال أريو جيما، باحث آخر في كلية المعلوماتية بجامعة إدنبره: "إن أبحاث الذكاء الاصطناعي اليوم غالبا ما تركز على مهام التفكير المعقدة، ولكن من المفارقات أن العديد من الأنظمة لا تزال تكافح من أجل التعامل مع المهام اليومية الأبسط".

سيتم الإبلاغ عن النتائج في ورقة تمت مراجعتها من قبل النظراء سيتم تقديمها في ورشة عمل التفكير والتخطيط لنماذج اللغة واسعة النطاق في المؤتمر الدولي الثالث عشر لتمثيلات التعلم (ICLR) في سنغافورة في 28 أبريل. نتائج البحث متاحة حاليًا على خادم ما قبل الطباعة arXiv.

هذه ليست الدراسة الأولى هذا الشهر التي تشير إلى أن أنظمة الذكاء الاصطناعي لا تزال ترتكب الكثير من الأخطاء. أجرى مركز داو للأخبار الرقمية دراسة على ثمانية محركات بحث للذكاء الاصطناعي ووجد أنها كانت غير دقيقة بنسبة 60% من الوقت. الأسوأ هو Grok-3، الذي تبلغ نسبة دقته 94%.