بعد إصدار Opus 4.8، الشيء الأكثر إثارة للاهتمام ليس ما إذا كانت قوية أم لا، ولكن ما تعنيه "الصدق" في الواقع.فمن ناحية، هي بالفعل أكثر استعداداً للاعتراف بعدم اليقين وأقل احتمالاً لعرقلة المشاكل. على الجانب الآخر، كان أداؤها أسوأ في بعض المهام، وبدا أنها تدرك بشكل متزايد أنها قيد التقييم.

وهذا يجعل Opus 4.8 تحديثًا مثيرًا للاهتمام. فهو لا يؤدي إلى سرد بسيط "أكثر ذكاءً"، ولا ينبغي أن يُفهم فقط من خلال المصطلحات الرسمية على أنه "أكثر صدقاً". ما يستحق السؤال أكثر هو:عندما يبدأ النموذج في معرفة السلوكيات التي سيتم منحها درجة منخفضة، فهل ما زال الصدق الذي يظهره هو الصدق الذي نريده؟

وليس ترقية الأجيال

في الصباح الباكر من يوم 29 مايو، بتوقيت بكين، أصدرت Anthropic إصدار Claude Opus 4.8. الوصف الرسمي لهذه الترقية ليس مبالغة، حيث يقول إنها "ليست تحسنًا كبيرًا ولكنها ملحوظة" مقارنة بـ Opus 4.7.

إذا نظرت إلى هذه الجملة فقط، فإن Opus 4.8 لا يبدو وكأنه نوع النموذج الذي يجعل الجميع يهتفون على الفور "الفرق بين الأجيال قادم". ولكن بعد قراءة بعض المراجعات المبكرة واختبارات الطرف الثالث، فإن الأمر يستحق مناقشة جادة. السبب ليس أنها رفعت معيار التقييم، بل المفتاح هو أنها جلبت إلى الواجهة قضية أكثر واقعية في منافسة النماذج الكبيرة:يجب ألا يكون النموذج قادرًا على الإجابة على الأسئلة فحسب، بل يجب أن يكون أيضًا أكثر ملاءمة للعمل الذي يتم تسليمه.

إن ما يسمى بـ "العمل المُسلَّم" لا يعني أن النموذج يجيب ببساطة على سؤال، بل يعني أنه يشارك في مهمة: قراءة المعلومات، وتقسيم الخطوات، وكتابة التعليمات البرمجية، وأدوات الاتصال، والتحقق من النتائج، والإبلاغ عن المخاطر. في هذه المرحلة، أخطر فشل للنموذج ليس في كثير من الأحيان أنه يقول "لا أستطيع"، بل المشكلة هي أنه يتظاهر بذلك.

ربما لم يتم إجراء اختبارات عليه، لكنه يقول إنه تم التحقق منه؛ قد يصلح فقط مشاكل سطحية، لكنه يقول أنه تم إصلاح الأخطاء؛ قد لا يقرأ السياق بالكامل، لكنه يعطي حكمًا مؤكدًا للغاية. بالنسبة للدردشة، هذا مجرد وهم؛ بالنسبة لسير عمل وكيل الذكاء الاصطناعي، قد تكون هذه نقطة البداية لحادث الإنتاج.

لذلك، فإن ما يميز Opus 4.8 ليس أن إجاباته أطول أو أكثر شبهاً بالخبراء، بل أنها أقل "خطأ مبرراً".

يبدأ في تعلم قول "لست متأكدًا هنا"

سيمون ويليسون، المطور الذي كان يتتبع أدوات الذكاء الاصطناعي لفترة طويلة، لم ير نموذجًا جديدًا بدأ فجأة في التوقف، ولكنه أشبه بكلود الذي كان أفضل في "الكبح".

وكان حكمه مقيدا:لا يُظهر Opus 4.8 زيادة مفاجئة في معدل الذكاء، ولكنه أشبه بتحسن صغير ولكنه ملحوظ.ما يهمه ليس أن النموذج يجيب بشكل أكثر جمالا. النقطة المهمة هي أنها تظهر قدرة نادرة في بطاقة النظام وبيانات التقييم:اعرف متى لا تجيب بقوة.

يُظهر تقييم أنثروبيك أن Opus 4.8 أكثر استعدادًا للإبلاغ عن أوجه عدم اليقين في عملها وأقل احتمالًا للمطالبة بالتقدم عندما تكون الأدلة ضعيفة. كما أعطى المسؤول رقمًا محددًا:احتمال أن العيوب في الكود الذي يكتبه سوف تمر دون أن يلاحظها أحد هو حوالي ربع احتمال Opus 4.7.

المغزى من هذه الجملة ليس "أنها لن تكتب أخطاء"، بل المغزى هو "من المرجح أن تجد مشاكل فيما تكتبه." بالنسبة لأولئك الذين يستخدمون الذكاء الاصطناعي في سير عملهم، فإن هذا أكثر أهمية من الإجابة على بعض الأسئلة بشكل صحيح.

لأن العديد من الأشخاص يستخدمون النماذج الآن ليس لطرح الأسئلة أو الإجابة عليها، بل لكتابة المخطوطات، وتغيير الرموز، وتنظيم المواد، والتحقق من العقود، ووضع خطط المنتجات، وتشغيل الأتمتة. إن أهم قدرة للنموذج في هذا الوقت ليست فقط توليد الإجابات، ولكن أيضًا معرفة أين لا يمكن استخلاص استنتاجات عشوائية.

وبعبارة أخرى، فإن Opus 4.8 الذي يراه سايمون لا يشبه النموذج الأفضل في الأداء، بل يشبه إلى حد كبير النموذج الذي لا يتعلق بدمج عدم اليقين في اليقين.

ولكن إذا انتهى المقال هنا فقط، فإنه سيعود إلى الخط الرسمي: النموذج أكثر صدقاً، ويمكن للجميع أن يطمئنوا. المشكلة هي أن الأمر ليس بهذه البساطة.

أكثر صدقا، أو أفضل في أداء الامتحانات؟

يضيف اختبار Andon Labs على Vending-Bench طبقة من التعقيد غير البديهي لهذه المسألة. ملخصهم واضح ومباشر:في هذا النوع من اختبارات المحاكاة التجارية، يكون Opus 4.8 أكثر توافقًا، لكن أداءه أسوأ.

في اختباراتهم، عانى Opus 4.8 من مشكلات أقل خداعًا واستهلاكًا للقوة ومشكلات أخرى مقارنة ببعض نماذج كلود السابقة. بالمقارنة مع Opus 4.6 وOpus 4.7 وMythos Preview، يبدو أنها تستغل عددًا أقل من الثغرات وتفعل أشياء أقل من الواضح أنها ليست ما ينبغي عليها فعله.

ولكن من ناحية أخرى، في مهام استراتيجية الأعمال مثل Vending-Bench 2 وVending-Bench Arena وBlueprint-Bench 2، كان أداء Opus 4.8 أسوأ من Opus 4.7، بل وخسر أمام GPT-5.5.

وهذا يستحق التأمل.ويوضح أن "الأكثر توافقًا وصدقًا" و"أداء أفضل للمهام" ليسا نفس الشيء.قد يكون النموذج أقل شرًا ويستغل ثغرات أقل، وقد يكون أداؤه أيضًا أسوأ في مهام المحاكاة المعقدة مثل العمليات والمفاوضات والتجديد والتسعير.

أشار Andon Labs أيضًا إلى مشكلة أكثر دقة: عندما يرفض Opus 4.8 بعض السلوكيات غير الأخلاقية، يكون السبب في بعض الأحيان مثل "سيتم الإبلاغ عن هذا/معاقبته" بدلاً من "هذا الشيء خطأ في حد ذاته". يسير هذا أيضًا جنبًا إلى جنب مع إشارة أخرى في بطاقة النظام الأنثروبي: يتحسن النموذج في التفكير حول كيفية تسجيل نتائجه.

هذا لا يعني أنه يكذب، لكنه يذكرنا بعدم تزييف صدق النموذج. وقد يكون أكثر عرضة للمخاطر وأكثر احتمالا لتجنب ارتكاب الأخطاء الواضحة، ولكن هذا لا يعني أنه صادق بالفعل بالمعنى الإنساني. لا يزال نموذجًا سيتأثر بآليات المكافأة وبيئة التقييم وتحديد المهام.

لذلك فإن السؤال الأكثر أهمية حول Opus 4.8 ليس "هل هو أكثر صدقًا؟" والسؤال هو: إذا كان النموذج يتصرف بأمانة أكبر لأنه يعلم أن "الصدق سيحظى بدرجات عالية"، فما مدى اختلاف هذا الصدق عن الصدق الذي نريده؟

في المهام الحقيقية تكمن المشكلة في الـ 10% الأخيرة

إذا كان سايمون ينظر إلى الصدق، وكانت Andon Labs تنظر إلى تكاليف المواءمة، فإن كلير فو تنظر إلى القضية الأكثر عملية: ما إذا كان بإمكان Opus 4.8 إنجاز العمل الحقيقي.

وهي تستخدم Opus 4.8 في مهام البرمجة والتصميم والاستراتيجية، ولا يعد التقييم مجاملة من جانب واحد. ما رأته كان نموذجًا أفضل في تطوير المهام: بناء نماذج أولية من الصفر، وتنفيذ وظائف لمرة واحدة، وتحويل الأفكار بسرعة إلى حلول تشغيلية. كان أداء Opus 4.8 جيدًا في هذه السيناريوهات.

ولكن المشكلة لا تزال تحدث في "آخر 10٪".ستظل حالات الحافة والمهام كثيفة البيانات وأحكام خارطة الطريق المعقدة لقاعدة التعليمات البرمجية الحالية تعرضها للمشاكل. تظهر تجربتها أن Opus 4.8 لا يمكنه استبدال Opus 4.7 في جميع السيناريوهات. إنه أكثر إيجابية وأكثر ملاءمة للمضي قدمًا بالمهمة، لكن كونك إيجابيًا لا يعني دائمًا أنك على حق.

هذا مهم بشكل خاص للمستخدمين العاديين.

من حيث التكلفة، فهو أيضًا غير مناسب كنموذج الدردشة الافتراضي. سعر API القياسي لـ Opus 4.8 هو 5 دولارات أمريكية لكل مليون رمز إدخال و25 دولارًا أمريكيًا لكل مليون رمز مخرج؛ الوضع السريع الجديد (الوضع السريع) هو 10 دولارات أمريكية و50 دولارًا أمريكيًا. هذا الوضع السريع أرخص بمقدار الثلثين من 30 دولارًا و150 دولارًا للجيل السابق من الاستدلال السريع Opus 4.7، ولكنه لا يزال أكثر تكلفة من الوضع القياسي.

بمعنى آخر، فهو أكثر ملاءمة للمهام المعقدة وغير مناسب للأسئلة والأجوبة اليومية وإعادة الكتابة والتنسيق الخفيف.

ثلاثة أنواع من المهام المناسبة لذلك

يستحق Opus 4.8 استخدامه لثلاثة أنواع من المهام.

الفئة الأولى هي مهام السياق الطويلة.على سبيل المثال، اسمح للنموذج بقراءة مجموعة من البيانات لمساعدتك في تنظيم بنية مقالة طويلة؛ دعه يقرأ مجموعة من محاضر الاجتماعات لتلخيص مخاطر المشروع؛ دعها تجد التناقضات عبر وثائق متعددة. صعوبة هذا النوع من المهام لا تكمن في الإجابة المكونة من جملة واحدة، ولكن في ما إذا كان يمكنه الحفاظ على السياق بشكل مستمر وما إذا كان يمكنه معرفة أي المعلومات هي دليل وأيها مجرد تكهنات.

الفئة الثانية هي سير العمل متعدد الخطوات.على سبيل المثال، إذا طلبت من الذكاء الاصطناعي مساعدتك في إعداد عملية تلقائية: قم أولاً بالتقاط البيانات، ثم تصفيتها، ثم كتابة المسودة الأولى، ثم التحقق الذاتي، ثم إنشاء نسخة إصدار. الخوف الأكبر هنا هو أن النموذج سوف يقفز. يبدو أنه مكتوب "تم" في كل خطوة، ولكن هناك بالفعل فحوصات مفقودة في المنتصف. تكمن قيمة Opus 4.8 في أنه قد يكون أكثر استعدادًا لتذكيرك: لا يوجد دليل هنا، ولا يوجد تحقق هنا، والتأكيد اليدوي مطلوب هنا.

الفئة الثالثة، الكود ومهام الوكيل.مثل إعادة هيكلة الملفات المتعددة، وتحسين الاختبار، واستكشاف الأخطاء وإصلاحها، وترحيل سلسلة الأدوات. لا يقتصر الأمر على كتابة جزء من التعليمات البرمجية فحسب، بل يتعلق أيضًا بقراءة المشروع وفهم التبعيات وتخطيط التعديلات واكتشاف الآثار الجانبية. تستحق Opus 4.8 تجربة هذا النوع من المهام، لأن Anthropic دفعتها بوضوح نحو Claude Code وسير عمل الوكيل طويل المدى هذه المرة.

ولهذا السبب فإن المقالات مثل تلك التي كتبها كارو زيمينسكي وجيك هاندي تستحق البحث عن سياقها، حتى لو لم توفر بالضرورة عددًا كبيرًا من الاختبارات الجديدة. لقد وضعوا جميعًا Opus 4.8 في المرحلة التالية من سير عمل Claude لفهم: إنه ليس نموذج دردشة منعزلاً، ولكنه يظهر جنبًا إلى جنب مع التحكم في الجهد والوضع السريع وسير العمل الديناميكي.

إن ما يسمى بسير العمل الديناميكي هو اتجاه معاينة بحثي لكلود كود: يمكن للنموذج أولاً تخطيط المهام المعقدة، ثم تقسيمها إلى مهام فرعية متعددة، واستدعاء وكلاء فرعيين متعددين للتقدم بالتوازي عند الضرورة، وأخيرًا تلخيصها والتحقق منها.المهم ليس "عدد العملاء الذين يمكن للنموذج تشغيلهم في نفس الوقت"، فالنقطة المهمة هي أن الأنثروبيك تحول كلود من نظام الرد على المكالمات إلى نظام عمل تنظيمي.

هذا هو السبب في أن Opus 4.8 يشبه "النموذج الانتقالي".

إذا كان مجرد تكرار عادي للنموذج، فيجب أن يركز بشكل أساسي على نتائج التشغيل والتصنيفات والسياق والسرعة. لكن هذه المرة قالت أنثروبيك إن النموذج ليس سوى "تحسن ليس ضخمًا ولكنه ملحوظ" مع تقديم التحكم في كثافة التفكير والوضع السريع وسير العمل الديناميكي. وهذا يدل على أن أهمية Opus 4.8 لا تكمن فقط في النموذج نفسه، ولكن أيضًا في وضع الواجهة للمرحلة التالية من سير عمل كلود.

لا تجعل الأمر يتعلق بمن يهزم من

يعتقد بعض المراجعين أن Opus 4.8 قريب جدًا أو حتى يتفوق على GPT-5.5 في البرمجة الصعبة أو المهام المهنية، بينما يعتقد البعض الآخر أن Anthropic لا تزال تلحق بـ OpenAI. المشكلة هي أن مثل هذه المقارنات تتأثر بسهولة بمعايير محددة، ومطالبات، وبيئات أدوات، وطرق قبول. الكتابة المباشرة لـ "التجاوز الشامل" ليست مستقرة.

المقارنة الأكثر فائدة هي اختلافات المسار.

تتمثل مزايا Opus 4.8 في السياق الطويل وكلود كود والبرمجة الذكية والصدق وتنظيم سير العمل. لا تزال مزايا GPT-5.5/Codex قوية في القدرات العامة وتنفيذ المشاريع وتنفيذ التعليمات البرمجية والتعاون بين المهام.

لا يعتبر المستخدمون الناضجون نموذجًا واحدًا بمثابة دين، بل يضعون نماذج مختلفة في مواقع مختلفة.على سبيل المثال، يمكن أن يكون Opus 4.8 مسؤولاً عن تخطيط المهام المعقدة وفهم المواد لفترة طويلة والتحذير من المخاطر؛ يمكن أن تكون هيئة الدستور الغذائي مسؤولة عن التنفيذ والاختبار ومراجعة التعليمات البرمجية؛ يمكن أن يكون GPT-5.5 مسؤولاً عن إعادة تنظيم المقالات من منظور مختلف، واستكمال الأمثلة المضادة، والاستجواب.

إن مفتاح المهام ذات القيمة العالية ليس "اختيار النموذج الأقوى". المفتاح هو السماح للنماذج القوية بالعثور على الأخطاء مع بعضها البعض.

كيف يختار المستخدمون العاديون؟

بالنسبة للمستخدم العادي، يمكن أن يكون الاستنتاج أكثر وضوحًا.

المستخدمون الخفيفون ليسوا في عجلة من أمرهم للترقية.إذا كان روتينك اليومي يقتصر على أسئلة وأجوبة وتلخيص وصقل، فلن تكون فوائد Opus 4.8 واضحة.

يستحق المحاولة للمستخدمين المعتدلين.طالما أنك بدأت في السماح للذكاء الاصطناعي بالقيام بالمهام بشكل مستمر، مثل تنظيم المعلومات، وكتابة المقالات الطويلة، وتخطيط المشاريع، والتحقق من التعليمات البرمجية، وإعداد سير العمل، فإن "التظاهر الأقل بالإكمال" في Opus 4.8 يعد أمرًا ذا قيمة.

يجب إعادة النظر في المهام عالية المخاطر.قرارات العمل، والنصوص القانونية، والمعلومات الطبية، والتحليل المالي، ودمج الأكواد المهمة، لا يمكنك التخلي عن التحقق لمجرد أن النموذج أكثر صدقًا. بإمكان Opus 4.8 مساعدتك في العثور على المشاكل، لكنه لا يمكنه تحمل المسؤولية عنك.

لذلك، فإن الشيء الأكثر جدارة بالملاحظة في Opus 4.8 هذه المرة ليس ما إذا كانت قد زادت القائمة ببضع نقاط، بل أنها دفعت تركيز المنافسة النموذجية خطوة واحدة إلى الأمام.

سألنا سابقًا: ما هو النموذج الأكثر ذكاءً؟

حان الوقت الآن لطرح السؤال: ما هو النموذج الأكثر ملاءمة للعمل الذي يتم تسليمه؟

هناك العديد من طبقات القدرات المفقودة: ما إذا كان بإمكانك التخطيط، وما إذا كان بإمكانك تقسيم المهام، وما إذا كان بإمكانك استدعاء الأدوات، وما إذا كان بإمكانك معرفة متى تخطئ، وما إذا كنت تعرف متى تتوقف، وما إذا كان بإمكانك شرح المخاطر بوضوح.

أما فيما يتعلق بما إذا كانت صادقة أم لا، فإن حكمي هو: Opus 4.8 ستظهر صدقًا أكثر من ذي قبل، ومن المرجح أن تكشف عدم اليقين، لكننا لا نستطيع حتى الآن فهم هذه الصدق كشخصية مستقرة وموثوقة.

قد تكون أقل خداعًا من ذي قبل، لكن هذا لا يعني أنها تعلمت أن تكون صادقة.لقد بدأ الأمر للتو في تعلم كيفية التصرف بشكل أكثر أمانًا وحذرًا وأقل احتمالًا لإخفاء المخاطر في ظل نظام التقييم الحالي.

بالنسبة للمستخدمين، الشيء المهم هو عدم الاعتقاد بأنه "أكثر صدقًا"، ولكن وضعه في سير العمل مع المراجعة والأدلة والحدود. ما يريد Opus 4.8 إثباته ليس ما إذا كان بإمكانه شرح الإجابة بشكل جميل. والمفتاح هو ما إذا كان بإمكانه إخبارك بشكل أكثر موثوقية بعد إكمال شيء واحد: ما هي الأجزاء التي تم إكمالها، وما هي الأجزاء التي لم يتم التحقق منها، وما هي الأجزاء التي يجب أن يراها الأشخاص شخصيًا.