الليلة الماضية، نشر باحث الوسائط المتعددة DeepSeek Chen Xiaokang تغريدة على X وأعلن عن ورقة DeepSeek الجديدة حول تكنولوجيا الوسائط المتعددة "التفكير باستخدام البدائيات البصرية"، والتي تعني "متحمس للإصدار".

في وقت مبكر من هذا الصباح، تم حذف التغريدة وتمت إزالة الورقة البحثية الموجودة على GitHub أيضًا.

لكن APPSO قرأت الأمر برمته قبل أن يختفي. بعد قراءتها، أشعر أن سحب هذه الورقة قد لا يكون بسبب مشاكل في المحتوى.
على العكس من ذلك، قد يكشف الكثير.
أول من أمس، انتهينا للتو من اختبار وضع التعرف على الصور في DeepSeek وطلبنا منه العد على أصابعه. لقد فكرت لبعض الوقت، وشكت لنفسها قائلة: "لقد شعرت بالدوار حقًا أثناء العد"، ثم أخطأت في الإجابة. في ذلك الوقت، اعتقدت أنها كانت مشكلة بسيطة أثناء مرحلة الاختبار الرمادي.

تخبرنا هذه الورقة أن هناك اختناقًا فنيًا لم تتمكن كل من GPT وClaude وGemini من حله بعد.
الحل الذي قدمه DeepSeek بسيط للغاية: ضع إصبعك على الذكاء الاصطناعي.

كتب تشين شياو كانغ في تلك التغريدة:
"يبقى أسلوب التعلم التقليدي في الفضاء اللغوي، لكن التفكير البصري يحتاج إلى المزيد. وباستخدام النقاط والمربعات كمرتكزات معرفية، يقوم نموذجنا بسد الفجوة المرجعية - ومحاكاة تآزر "النقطة إلى السبب" الذي يستخدمه البشر."
"تبقى سلاسل التفكير التقليدية في مساحة اللغة، لكن التفكير البصري يتطلب المزيد. باستخدام النقاط والمربعات كمرتكزات معرفية، يسد نموذجنا "فجوة الاقتباس" ويحاكي الآلية التعاونية البشرية "للإشارة والتفكير".
الرؤية بوضوح والإشارة بدقة هما شيئان مختلفان.
في الوقت الحاضر، جميع النماذج الكبيرة متعددة الوسائط تقوم بتحليل الصورة. والجوهر هو تحويل الصور التي تمت مشاهدتها إلى نص، ثم إجراء التفكير المتسلسل في مساحة النص. GPT-5.4، Claude-Sonnet-4.6، Gemini-3-Flash، كلها تتبع هذا النهج.
في العامين الماضيين، ركزت اتجاهات التحسين في OpenAI وGoogle وAnthropic على قضية واحدة: كيفية جعل النموذج يرى بشكل أكثر وضوحًا. الاقتصاص عالي الدقة والتجزئة الديناميكية وتوسيع الصور وحشوها. يطلق DeepSeek على هذا اسم "Perception Gap".
لكن هذه الورقة تشير إلى عنق الزجاجة الآخر: الفجوة المرجعية. يمكن للنموذج أن يرى بوضوح، لكنه لا يستطيع الإشارة بدقة إلى شيء ما في الصورة أثناء عملية الاستدلال.
يمكنك فهم الأمر بهذه الطريقة: في الصورة، يقف 25 شخصًا معًا بكثافة. إذا استخدمت كلمات لوصف "الشخص المجاور للشخص الذي يرتدي القميص الأزرق في الصف الثالث على اليسار"، فإن الوصف نفسه غامض. يفقد النموذج السياق أثناء أهميته، وينسى من كان يحسب فقط.
كيف يحل البشر هذه المشكلة؟ إنه أمر بدائي بما فيه الكفاية: ارفع أصابعك وعدها واحدًا تلو الآخر.
نموذج معلمة 284B، مزود بإصبع
حل DeepSeek: اسمح للنموذج بإخراج الإحداثيات الموجودة على الصورة مباشرة أثناء عملية التفكير.
تخيل أن النموذج يرى الكثير من الأشخاص في الصورة. لم تعد سلسلة أفكارها "أرى شخصًا يرتدي ملابس زرقاء على اليسار"، بل "أرى هذا الشخص" ثم تُرفق إحداثيات مربع لدائرة الشخص. ضع دائرة حول مربع لكل شخص تقوم بإحصائه، وما عليك سوى حساب عدد المربعات بعد وضع دائرة حوله.
هناك تنسيقان للإحداثيات: أحدهما هو المربع المحيط، الذي يرسم مستطيلًا لإحاطة الكائن، وهو مناسب لمعايرة موضع الكائن؛ والآخر هو النقطة التي تحدد موقعًا على الخريطة وهي مناسبة لتتبع المسارات ومتاهات المشي. يطلق DeepSeek على هذين الأمرين اسم "البدائيات البصرية"، وهي أصغر وحدة تفكير.
هذا هو التغيير الرئيسي: بينما قبل أن يتم تنسيق مخرجات النموذج كإجابة نهائية ("الهدف هنا")، أصبحت الإحداثيات الآن مضمنة في عملية التفكير نفسها. الإحداثيات هي علامات على ورقة المسودة وليست إجابات على ورقة الإجابة.
قم بضغط الصورة 7056 مرة، ومن ثم لا يزال بإمكانك حساب عدد الأشخاص الموجودين فيها
قاعدة النموذج هي DeepSeek-V4-Flash، وهو نموذج MoE بمعلمة 284B. يعني MoE أن النموذج يحتوي على دماغ كبير، ولكن يتم استخدام جزء صغير فقط من الخلايا العصبية للعمل في كل مرة يجيب فيها على سؤال، ويتم تنشيط 13B فقط من المعلمات أثناء التفكير. على غرار فريق مكون من 100 شخص، يتم إرسال 5 أشخاص فقط لكل مهمة.
على جانب التشفير المرئي، يتم تنفيذ ثلاثة مستويات من الضغط. دعونا نستخدم القياس: لديك صورة تريد إرسالها إلى صديق، وسرعة الإنترنت بطيئة جدًا. في الخطوة الأولى، تقوم بقص الصورة إلى مربعات صغيرة لاستخدامها لاحقًا؛ في الخطوة الثانية، يتم دمج كل 9 مربعات صغيرة في 1 (ضغط 3×3)؛ في الخطوة الثالثة، يتم تبسيط المعلومات الزائدة بشكل أكبر أثناء الإرسال (ضغط ذاكرة التخزين المؤقت KV 4 مرات).
الأرقام الفعلية: صورة بحجم 756 × 756، و570.000 بكسل، تصل إلى 81 وحدة من المعلومات. نسبة الضغط 7,056x.
كان رد فعلي الأول عندما رأيت هذا الرقم هو: هل لا يزال بإمكاني الرؤية بوضوح؟ لكن النتائج الواردة في الورقة تظهر أن هذا ممكن بالفعل. لا أستطيع الرؤية بوضوح فحسب، بل يمكنني أيضًا عد 25 شخصًا بدقة في الصورة.

للمقارنة: بالنسبة لنفس الصورة مقاس 800×800، يستهلك Gemini-3-Flash ما يقرب من 1100 رمزًا مميزًا لتمثيل هذه الصورة، ويستهلك Claude-Sonnet-4.6 ما يقرب من 870 رمزًا مميزًا، ويستهلك GPT-5.4 ما يقرب من 740 رمزًا مميزًا. يستخدم DeepSeek 90 وحدة معلومات فقط في الحساب النهائي. يستخدم البعض الآخر أكثر من ألف شبكة لحفظ الصورة، لكن DeepSeek يستخدم 90 شبكة فقط، ثم يستخدم كل قوة الحوسبة التي تم تحريرها حتى "الإصبع".
كيفية حفظ 40 مليون قطعة من بيانات التدريب
قام DeepSeek بالزحف إلى جميع مجموعات البيانات باستخدام علامة "اكتشاف الهدف" من منصات مثل Huggingface، وقام في البداية بفحص 97984 مصدرًا للبيانات.
ثم تم إجراء جولتين من الفحص.
الجولة الأولى من التحقق من جودة الملصق. استخدم الذكاء الاصطناعي لمراجعة ثلاثة أنواع من الأسئلة تلقائيًا: التسميات عبارة عن أرقام رقمية لا معنى لها (الفئتان المسماة "0" و"1")، والتسميات هي كيانات خاصة ("MyRoommate")، والتسميات عبارة عن اختصارات غامضة ("OK" و"NG" في الاختبارات الصناعية، وتبدو التفاحة "OK" ولوحة الدائرة "OK" مختلفتين تمامًا، ولا يمكن للذكاء الاصطناعي التعرف عليهما). شهدت هذه الجولة خفضًا بنسبة 56%، مما أدى إلى ترك 43,141.
جودة الجولة الثانية من فحص الإطار. ثلاثة معايير: عدد كبير جدًا من العلامات المفقودة (ضع علامة على نصف العلامة ولن يتم وضع علامة عليها)، والإطار ملتوي ونصف الكائن مقطوع، والإطار كبير جدًا بحيث يؤطر الصورة بأكملها (وهذا يعني أن البيانات الأصلية هي بيانات اكتشاف تم تحويلها بشدة من تصنيف الصور، بدون معلومات تحديد الموقع). قطع 27٪ أخرى، وترك 31701.
وأخيرًا، تم إجراء أخذ العينات وإلغاء البيانات المكررة حسب الفئة، مما أدى إلى إنتاج أكثر من 40 مليون عينة عالية الجودة.
يختار DeepSeek تكبير بيانات الإطار أولاً، وملء بيانات النقطة لاحقًا. والسبب بسيط أيضًا: إذا طلبت من الذكاء الاصطناعي تحديد مربع، فستكون الإجابة فريدة بشكل أساسي (فقط ضع دائرة حول الكائن)؛ ولكن إذا طلبت من الذكاء الاصطناعي تحديد نقطة ما، فسيتم اعتبار أي موضع على الكائن صحيحًا، ولا توجد إجابة صحيحة فريدة، وستكون إشارة التدريب ضبابية للغاية. علاوة على ذلك، يحتوي الإطار نفسه على نقطتين (الزاوية اليسرى العليا والزاوية اليمنى السفلية). بعد تعلم رسم الإطار، تعتبر علامات الترقيم بمثابة عملية تقليل الأبعاد.
كيفية تعليم قدرة "الإصبع" على النموذج
تتمثل استراتيجية ما بعد التدريب في "التدريب بشكل منفصل أولاً ثم الجمع بينهما".
يستخدم DeepSeek أولاً بيانات الإطار لتدريب نموذج خبير متخصص في رسم الإطارات، ثم يستخدم بعض البيانات لتدريب نموذج خبير متخصص في علامات الترقيم. سبب التدريب المنفصل هو أن كمية البيانات ليست كبيرة بما يكفي، ومن السهل أن تتداخل المقدرتان مع بعضهما البعض عند مزجهما معًا.
ثم قم بإجراء التعلم المعزز على الخبيرين على التوالي. كيف نحكم على ما إذا كان النموذج "يرسم الإطار الصحيح" أو "يتخذ المسار الصحيح"؟ لقد صمم DeepSeek نظام تسجيل متعدد الأبعاد: هل التنسيق صحيح (هل بناء الجملة الإحداثي صحيح)، وهل المنطق غير معقول (هل عملية التفكير متناقضة)، وهل الإجابة دقيقة (ما مدى اختلاف النتيجة النهائية عن الإجابة القياسية).
يعد فحص بيانات التعلم المعزز أيضًا خاصًا جدًا: أولاً دع النموذج يقوم بنفس السؤال N مرات. الأسئلة التي كلها صحيحة سهلة للغاية وليس لها أي قيمة تدريبية. الأسئلة التي كلها خاطئة من الصعب جدا أن تتعلم أي شيء. فقط الأسئلة "الصحيحة والخاطئة" هي التي تبقى للتدرب عليها.
والخطوة الأخيرة هي الجمع بين قدرات الخبيرين في نموذج واحد. المنهج النوعي: ليتعلم النموذج الموحد وفق مخرجات خبيرين، مثل تعلم الطالب مواد مختلفة من معلمين في نفس الوقت.
كيف يتم حسابها بعد إعطاء الأصابع؟
عدد 25 شخص

أعط العارضة صورة لفريق كرة قدم واسألها: "كم عدد الأشخاص الموجودين في الصورة؟"
عملية التفكير: حدد أولاً، "هذه صورة جماعية، مع احتساب الجميع، بما في ذلك اللاعبين والمدربين." ثم قم بإخراج 25 إحداثيات إطار مرة واحدة، ثم ضع دائرة حول الإطار على كل شخص. ثم نحسب حسب عدد الصفوف: 4 أشخاص يجلسون في الصف الأمامي + 9 أشخاص في الصف الأوسط + 8 أشخاص في الصف الخلفي + 2 مدربين على اليسار + 2 مدربين على اليمين = 25.
"كم عدد الدببة الموجودة على الأرض؟"

هناك ثلاثة دببة في الصورة. يعطي النموذج كل إطار واحدًا تلو الآخر ويحدد موقعه: الأول يتسلق عموديًا على جذع الشجرة ويستبعده؛ والثاني يمشي على حافة الصخرة ويعد؛ والثالث بين الخشب المكسور والتربة، مهم. الجواب: 2.
فبدلاً من عد ثلاثة حيوانات أولاً ثم طرح واحد منها، يتم الحكم على كل واحد منها على أنه "ما إذا كان على الأرض"، وكل حكم له مرساة إحداثية محددة خلفه. إنه في الواقع التحقق من الأشياء واحدًا تلو الآخر، وليس التخمين.
التفكير المكاني متعدد القفزات

يحتوي المشهد المعروض ثلاثي الأبعاد على مجموعة من الأشكال الهندسية الملونة. السؤال: هل يوجد جسم مطاطي أرجواني بحجم جسم معدني رمادي اللون؟
يقوم النموذج أولاً بتأطير كرة معدنية رمادية اللون للتأكد من أنها جسم صغير. ثم قم بتأطير الأشياء الصغيرة الأخرى في المشهد واحدًا تلو الآخر: أسطوانة معدنية بنية، مربع معدني أزرق، مربع مطاطي أزرق، أسطوانة مطاطية صفراء... يتم فحص الكائنات الستة واحدًا تلو الآخر، ويتم فحص السمات الثلاثة للون والمادة والحجم واحدًا تلو الآخر. الخلاصة: لا يوجد شيء اسمه المطاط الأرجواني.
ست مرات لتحديد المواقع وستة مرات للحكم. يتم تثبيت كل خطوة بواسطة الإحداثيات، لذلك لن يكون هناك "انتظر لحظة، أين وجدتها؟" الموقف.
المزيد من مراجع الحالة في الورقة:

التنقل في المتاهة: يقوم شخص ما برمي عملة معدنية، بينما يبحث DeepSeek بالفعل
اختبرت الورقة أربع مهام، وكانت المتاهة هي التي بها فجوة واسعة.
المهمة واضحة للغاية: بالنظر إلى صورة المتاهة، اسأل ما إذا كان هناك مسار من نقطة البداية إلى نقطة النهاية، وإذا كان الأمر كذلك، ارسمه. هناك ثلاثة أشكال من المتاهات، مربع، وحلقة، وقرص العسل.
يتنقل النموذج في المتاهة بنفس الطريقة التي رسمتها بها بقلم رصاص على الورق عندما كنت طفلاً: اختر شوكة في الطريق حتى النهاية، وإذا لم تنجح، فارجع وجرب أخرى. الفرق هو أن كل خطوة يتم اتخاذها، تحدد نقطة إحداثية على الخريطة وتترك سجلاً.
توضح الورقة العملية الكاملة للمتاهة الدائرية: يحدد النموذج أولاً نقطة البداية ونقطة النهاية، ثم يبدأ في الاستكشاف. وبعد أن مشيت 18 خطوة، دخلت إلى طريق مسدود مرتين وخرجت منه. أخيرًا، وجدت مسارًا وقمت بتوصيل نقاط الإحداثيات للمسار بأكمله للإخراج.
صممت DeepSeek أيضًا مجموعة من المتاهات الفخاخية: هناك مسار للوهلة الأولى، ولكن هناك قسم معين في المنتصف محجوب سرًا. هذا النوع من المتاهة يختبر الصبر. لا يمكن للنموذج استخلاص النتائج بمجرد النظر إلى الاتجاه بالقرب من نقطة البداية. وعليه أن يجرب كل الطرق الممكنة للتأكد من أنه لا يعمل.

مقارنة الدقة:
- ديب سيك: 66.9%
-جي بي تي-5.4: 50.6%
- كلود-سونيت-4.6: 48.9%
- الجوزاء 3- فلاش: 49.4%
- Qwen3-VL: 49.6%
هناك إجابتان فقط للمتاهة: إما أن يكون هناك طريق، أو لا يوجد طريق. التخمين العشوائي هو بالضبط 50٪. تبلغ نسبة GPT وClaude وGemini وQwen حوالي 50%، وهو ما لا يختلف عن رمي العملة المعدنية. إن نسبة DeepSeek البالغة 66.9% ليست عالية، ولكنها في الواقع طريقة خطوة بخطوة، وليست مهمة حمقاء.
تتبع المسار: الإصدار النهائي لإيجاد الاختلافات بين الجميع
هذه المهمة أكثر بديهية: مجموعة من الخيوط متشابكة معًا، كل خيط ينتقل من علامة إلى أخرى. الشكل الذي يبدو عليه سلك سماعة الرأس عند إخراجه من جيبك هو ما تبدو عليه الصورة. السؤال يطرح عليك: ما هي نقطة النهاية التي يؤدي إليها هذا الخط؟
تتمثل طريقة النموذج في إخراج نقاط إحداثية على طول الخط، مثل تمرير الإصبع على الورقة. عندما يكون الخط منحنيًا بشكل حاد، يتم تحديد النقاط بشكل كثيف، ويتم تحديد الأجزاء المستقيمة بشكل متناثر. وينطبق الشيء نفسه عندما يتبع الناس خطًا بأعينهم. إنها تتباطأ عند المنحنيات وتكتسح الخطوط المستقيمة.

أضافت الورقة أيضًا نسخة أكثر صعوبة من الاختبار: جميع الخطوط لها نفس اللون والسمك. لم يعد بإمكانك تمييز أي خط هو من خلال اللون، يمكنك فقط الاعتماد على استمرارية اتجاه المنحنى نفسه لتحديد الخط الذي يجب أن يتبعه التقاطع.
- ديب سيك: 56.7%
-جي بي تي-5.4: 46.5%
- كلود-سونيت-4.6: 30.6%
- الجوزاء 3- فلاش: 41.4%
كانت نسبة كلود 30.6% مفاجئة بعض الشيء. هناك بشكل عام أربعة أو خمسة خيارات لنقطة النهاية، ويجب أن يكون التخمين العشوائي أكثر من 20%، و30.6% أفضل قليلاً من التخمين الأعمى. ربما لا يكون القصور الذاتي في التفكير اللفظي مفيدًا في هذا النوع من مهام التتبع المكاني البحت.
كيفية تعليم الذكاء الاصطناعي المشي في متاهة دون غش
هناك مشكلة عملية في التدريب على المتاهة: إذا أعطيت نقاطًا فقط بناءً على ما إذا كانت الإجابة النهائية صحيحة أم لا، فسوف يتعلم النموذج بسرعة. بدلاً من البحث بجدية وربما الحصول على إجابة خاطئة، فمن الأفضل أن تخمن واحدة فقط. على أية حال، ستكون النتيجة صفرًا إذا أجبت على السؤال بعناية أم لا.
الحل الذي تقدمه DeepSeek هو دمج العملية في النتيجة. يتم منح النقاط لكل خطوة من خطوات الاستكشاف القانوني، ويتم خصم النقاط مقابل المشي عبر الجدران، وكلما ذهبت أبعد، كلما كان ذلك أفضل. حتى لو لم تصل إلى خط النهاية في النهاية، طالما أنك تبحث في معظم المنطقة بعناية، فلا يزال بإمكانك الحصول على نتائج جيدة. بهذه الطريقة، ليس لدى النموذج أي حافز ليكون كسولا.
إن متطلبات المتاهات غير القابلة للحل أعلى من ذلك: لا يمكنك فقط أن تقول "لا يمكن حلها"، بل عليك إثبات أنك قمت بالفعل بزيارة جميع الأماكن التي يمكنك الذهاب إليها. تغطية البحث مهمة أيضًا.
بيضة عيد الفصح واحدة، ثلاثة قيود
لا يوجد صيني في بيانات ما بعد التدريب. لكن النموذج يمكنه القيام بالتفكير البدائي البصري باللغة الصينية.
أعطها صورة لآلة صنع القهوة واسأل "كيفية صنع اللاتيه" باللغة الصينية. فهو يحدد إحداثيات موضع عصا البخار، وعاء الحليب، حبوب القهوة، وزر اللاتيه باللغة الصينية، ومن ثم يعطي خطوات التشغيل. يتم توريث القدرات المتعددة اللغات من النموذج الأساسي ولا يتم تدميرها من خلال التدريب على البدائيات البصرية.

ويمكنه أيضًا الجمع بين مشاهدة الصور والمعرفة العالمية: يتم إعطاء صورة لجسر البوابة الذهبية والسؤال "هل يوجد فريق NBA بالقرب من هنا؟" لقد قامت أولاً بتأطير جسر البوابة الذهبية، واستنتجت أنها سان فرانسيسكو، ثم أجابت على سؤال غولدن ستايت ووريورز.

يمكن أن يفهم الفكاهة: تتناسب البقع الطبيعية الموجودة على قطعة من الفاكهة تمامًا مع شكل وجه قطة حزينة، ويمكن للعارضة الإشارة إلى أوجه التشابه وشرح سبب كونها مضحكة.

يمكن أن يوفر توجيهًا لغرفة الهروب: ضع المفتاح في مكان مرتفع، والكرسي على الأرض، والباب المقفل، واقترح "تحريك الكرسي أسفل المفتاح ← الوقوف عليه للحصول على المفتاح ← فتح الباب".

الصحيفة تكتب بصراحة عن أشياء مستحيلة حاليًا.
دقة الإدخال محدودة. مخرجات ViT عالقة بين 81 و 384 وحدة معلومات مرئية. عند مواجهة مشاهد مفصلة للغاية (مثل عد الأصابع)، فإن دقة الإحداثيات ليست كافية. وقد يكون هذا هو السبب المباشر لانقلاب السيارة أثناء العد على الأصابع أثناء الاختبار الفعلي أول من أمس.
حاليًا، هناك حاجة إلى كلمة تشغيل محددة لتنشيط الوضع البدائي المرئي. لا يمكن للنموذج بعد أن يحكم من تلقاء نفسه "يجب أن أمد أصابعي لحل هذه المشكلة"، يجب على شخص ما أن يذكره.
المنطق الطوبولوجي له قدرات تعميمية محدودة. التأثير جيد على نوع المتاهة المدربة، لكنه قد يسقط عند التغيير إلى هيكل مكاني جديد. قال تشين شياو كانغ أيضًا في تلك التغريدة المحذوفة:
"ما زلنا في المراحل الأولى؛ التعميم في مهام الاستدلال الطوبولوجي المعقدة ليس مثاليًا بعد، لكننا ملتزمون بحلها."
"ما زلنا في المراحل الأولى، والتعميم على مهام الاستدلال الطوبولوجي المعقدة لم يكتمل بعد، لكننا سنواصل معالجته".
أثناء الاختبار الفعلي أول من أمس، كانت القدرات التي أظهرها وضع التعرف على الصور الخاص بـ DeepSeek (السؤال عن هوية الناشر، وربط معنى شعار الحوت، والتصحيح الذاتي، وعقد "اجتماع دفاعي مصغر" للنفس) متوافقة مع طريقة التفكير الموصوفة في هذه الورقة. إنه ينشئ نقطة ربط بصرية في الدماغ، ويفكر حول نقطة الربط، ويعود لتصحيحها عند مواجهة الصراعات.
وعد أصابعك سيجعلك تشعر بالدوار، هذا هو العرض الحي للفجوة المرجعية. وفي صورة الأصابع المتداخلة، فإن الاعتماد البحت على الأوصاف اللفظية لتمييز "الثالث من اليسار" و"الثاني من اليمين" هو مثل إحصاء مجموعة من الناس المتزاحمين دون أن تمد أصابعك، وهو أمر محكوم عليه بالفوضى.
الاتجاه الذي تشير إليه هذه الورقة هو: الخطوة التالية في تطور الاستدلال متعدد الوسائط هي آلية التثبيت. يستخدم DeepSeek 90 وحدة معلومات لمساواة تأثير الآخرين باستخدام آلاف الرموز المميزة، ويتم استخدام كل قوة الحوسبة المحفوظة للسماح للنموذج "بالتفكير والإشارة في نفس الوقت".

يمكن إبطاء سباق التسلح القراري قليلاً عن طريق تعليم النموذج كيفية مد أصابعه بدلاً من تزويده بزوج من النظارات باهظة الثمن.
وبعد أن فتح الحوت عينيه نمت له أصابع أيضاً. معدل دقة المتاهة البالغ 66.9% أبعد ما يكون عن الكمال، لكنه على الأقل يأخذ الأمر على محمل الجد، على عكس الأشخاص المجاورين الذين يرمون عملة معدنية.