عندما يقوم مصنعو الذكاء الاصطناعي الآخرون بإصدار نماذج، سيخبرونك بالتأكيد "مدى روعة وقوة منتجنا هذه المرة." لكن الأنثروبي مختلف. قالوا: "لدينا شيء أقوى، لكننا لا نستطيع أن نعطيك إياه بعد". لذلك، في 17 أبريل 2026، أصدرت Anthropic إصدار Claude Opus 4.7. ليس هناك الكثير من التشويق في هذا الإصدار. تسرد المدونة الرسمية النتائج الجارية وتحسينات القدرة وسيناريوهات التطبيق خطوة بخطوة. لكن إذا قرأت الإعلان بالكامل بعناية، ستلاحظ شيئًا غير عادي.
يتبع Opus 4.7 مشروع Anthropic's Glasswing وMythos Preview. وفي الأسبوع الماضي أعلنوا للتو أن Mythos Preview مقيد مؤقتًا من الإصدار بسبب إمكانات أمان الشبكة المفرطة.
لذلك، تم وضع Opus 4.7 بوضوح على أنه "النموذج العام الأول المستخدم لاختبار حواجز حماية أمان الشبكة الجديدة."
حتى أن المسؤولين قالوا إنهم أضعفوا بشكل تجريبي قدرات الأمن السيبراني للنموذج أثناء التدريب.
فما هو بالضبط Opus 4.7؟
01 ما هو أداء Opus 4.7؟
دعونا نتحدث عن الجزء العادي أولا.
يتفوق Opus 4.7 على Opus 4.6 في معايير متعددة، خاصة في مهام هندسة البرمجيات المتقدمة.
في الرسم البياني الرسمي، تبلغ نسبة Opus 4.7 87.6% و Opus 4.6 80.8% في SWE-Bench Verified؛ في SWE-Bench Pro الأكثر صعوبة، تبلغ نسبة Opus 4.7 64.3% وOpus 4.6 53.4%؛ في Terminal-Bench 2.0، Opus 4.7 هي 69.4% وOpus 4.6 هي 65.4%؛ التمويل على الوكيل v11، Opus 4.7 هو 64.4% وOpus 4.6 هو 60.1%.

دعونا نشرح هذه السلسلة من الأرقام من الناحية البشرية: يمكنك الآن تسليم مهام برمجة أكثر تعقيدًا إلى Opus 4.7، الذي سيتعامل مع المهام طويلة الأمد بشكل أكثر صرامة، ويتبع التعليمات بشكل أكثر دقة، ويجد طرقًا للتحقق من مخرجاتها قبل الإبلاغ عنها.
في ردود الفعل من المختبرين الأوائل لـ Opus 4.7، هناك عدة نقاط جديرة بالملاحظة.
الأول هو أن القدرة على اتباع التعليمات قد تحسنت بشكل كبير.
يفسر Opus 4.7 التعليمات بشكل حرفي صارم، في حين أن النماذج السابقة كانت تميل إلى تفسيرها بشكل فضفاض أو تخطي أجزاء معينة.
قد يبدو هذا أمرًا جيدًا، لكنه قد يسبب مشاكل في الواقع. الأداء هو أن Opus 4.7 أكثر "طاعة"، ولكن هذا سيجعل بعض كلمات المطالبة القديمة غير صالحة.
ربما كان كلود السابق أكثر "تفهمًا". تكتب تعليمات غامضة، وستكمل تلقائيًا نيتك الحقيقية، أو تتجاهل بعض المتطلبات الأقل أهمية أو المتضاربة أو المكتوبة بشكل غير واضح. يتم في الواقع تعديل الكلمات السريعة للعديد من المستخدمين بناءً على هذه العادة النموذجية القديمة.
لكن مسؤولي Opus 4.7 يقولون إنهم يفضلون اتباع التعليمات بشكل حرفي صارم. بهذه الطريقة، يمكن الآن تنفيذ التفاصيل الصغيرة في كلمات المطالبة القديمة التي تم تجاهلها تلقائيًا بواسطة النموذج بعناية. إن التعبيرات الغامضة التي استخدمها النموذج للتعامل معها بمرونة أصبحت الآن مفهومة بالطريقة الأكثر مباشرة.
والنتيجة هي أن النموذج أقوى بشكل واضح، ولكن الإخراج يختلف عما توقعه المستخدم.
والثاني هو تحسينات الدعم متعدد الوسائط.
يمكن لـ Opus 4.7 قبول صور يصل طولها إلى 2576 بكسل، أي حوالي 3.75 ميجابكسل، أي أكثر من ثلاثة أضعاف طراز Claude السابق.
هذه ليست ترقية عادية "للقدرة على التعرف على الصور"، ولكنها لتمكين الذكاء الاصطناعي من فهم واجهة البرنامج وخدمة وظيفة استخدام الكمبيوتر في Anthropic.
الترقية المرئية لـ Opus 4.7 لا تهدف إلى جعل المستخدمين يسألون "ماذا يوجد في هذه الصورة؟" ولكن لتمكين الوكلاء من فهم واجهة البرنامج.
إذا لم يتمكن الوكيل من رؤية النماذج الكثيفة، والمخرجات الطرفية، وتفاصيل مسودة التصميم، ولقطات شاشة التعليمات البرمجية، فسيكون عديم الفائدة بغض النظر عن مدى قوة قدراته التشغيلية، لأنه يعرف فقط كيفية العمل، ولكن ليس مكان العمل.
زاد الأنثروبي من دقة الصورة، مما أعطى كلود عيونًا أكثر وضوحًا.
في المستقبل، لن تكون العديد من المهام في مكتب الذكاء الاصطناعي، واختبار الذكاء الاصطناعي، وأمن الذكاء الاصطناعي، وتطوير الواجهة الأمامية للذكاء الاصطناعي، مهام نصية خالصة، بل مهام شاشة.
والثالث هو أداء العمل الفعلي.
يُظهر الاختبار الداخلي أن Opus 4.7 أكثر فعالية من Opus 4.6 في مهام التحليل المالي، حيث ينتج تحليلات ونماذج أكثر دقة، وعروض تقديمية أكثر احترافية، وتكامل أكثر إحكامًا بين المهام.
كما أنها حصلت على أعلى الدرجات في تقييم الطرف الثالث GPQAval-AA، وهو تقييم يغطي التمويل والقانون والمجالات الأخرى.
والرابع هو قدرة الذاكرة.
سيستخدم Opus 4.7 أيضًا الذاكرة المستندة إلى نظام الملفات. ويمكنه تذكر الملاحظات المهمة أثناء العمل طويل الأمد والمتعدد الجلسات، وتتطلب المهام اللاحقة معلومات مسبقة أقل.
هذه النقطة ليست واضحة في الإعلان الرسمي، لكنني أعتقد أنها قد تكون ميزة التحديث الأكثر أهمية في الاستخدام على المدى الطويل.
فقط الوكيل الذي يمكنه تذكر قيود المشروع وتفضيلات المستخدم والقرارات المعمارية وأسباب الفشل الأخير عبر الجلسات يمكنه التحول من "عامل مؤقت ذكي" إلى "زميل مستقر".
من حيث الأمان والمحاذاة، فإن الأداء العام لـ Opus 4.7 وOpus 4.6 متشابه.
إنه يحسن الصدق ومقاومة هجمات حقن الأطراف الضارة، ويقلل من القدرة على تقديم النصائح الضارة، مثل كيفية صنع واستخدام السكاكين المنظمة.
ويخلص تقييم التوافق الرسمي إلى أن النموذج "متوافق بشكل عام وجدير بالثقة، ولكنه لا يتصرف بشكل كامل بعد على النحو الأمثل".
من حيث السعر، يظل Opus 4.7 و Opus 4.6 كما هو. تكلف المدخلات 5 دولارات لكل مليون رمز، وتكلف المخرجات 25 دولارًا لكل مليون رمز.
ولكن هناك تغييران في التكلفة مذكوران في دليل الترحيل. قد يقوم برنامج الرمز المميز الجديد بتحويل نفس الإدخال إلى 1.0 إلى 1.35 مرة من الرمز المميز. في وضع التفكير القوي، وخاصة الحوار متعدد الجولات للوكيل، سوف يفكر النموذج أكثر وقد ينتج المزيد من الرموز.
لذلك هذا هو المكان الذي تتوخى فيه الأنثروبيك الحذر. السعر الاسمي لا يتغير، لكنه سيصبح أكثر تكلفة إذا قمت بتشغيله أكثر.
في الماضي، كانت الفوترة النموذجية تعتمد بشكل أساسي على طول المدخلات والمخرجات، ولكنها الآن تعتمد أيضًا على مستوى التفكير، وميزانية المهمة، وعدد الجولات التي قام بها الوكيل، وما إذا كان التفكير سيستمر بعد فشل الأداة.
تُظهر ميزانيات الجهد والمهام التي تمت إضافتها حديثًا من Anthropic أن استخدام النماذج المتطورة يتبع نفس منطق الحوسبة السحابية في ذلك الوقت. إن ما تدفع مقابله ليس إجابة، بل عملية مهمة تتضمن التفكير والتجربة والخطأ والتحقق.
02 لماذا أطلقت الأنثروبيك نماذج مخصي؟
ثم مرة أخرى، إحدى نقاط البيع الحقيقية لـ Opus 4.7 هي على وجه التحديد أنها لا تطلق العنان لقدراتها بالكامل.
قد يبدو هذا غير بديهي، لكنه قد يكون هو القاعدة بالنسبة لشركات نماذج الجيل التالي.
كلما كان النموذج أقرب إلى بيئة الإنتاج الحقيقية، قلّت قدرتنا على تحقيق نتائج أقوى. فهو يحتاج إلى معرفة ما يمكن وما لا يمكن فعله، وأي المستخدمين يمكنهم فتح المزيد من الأذونات، وأي الطلبات يجب حظرها.
أطلقت Anthropic برنامج التحقق السيبراني في نفس الوقت الذي أطلقت فيه Opus 4.7.
يقوم هذا البرنامج بتقييم القدرات بشكل أساسي. يحصل المستخدمون العاديون على Opus مع حواجز حماية، ولا يمكن إلا لخبراء الأمان المعتمدين التقدم بطلب لاستخدامات أمان الشبكة على نطاق أوسع.
يقوم النموذج تلقائيًا باكتشاف وحظر الطلبات التي تشير إلى استخدامات الأمن السيبراني المحظورة أو عالية الخطورة.
تقول Anthropic إنها ستتعلم من عمليات النشر الواقعية لـ Opus 4.7 للتحضير للإصدار واسع النطاق لنماذج على مستوى Mythos في المستقبل.
يجب أن أقول إن الأنثروبيك ما زال يعرف كيف يلعب. إنهم يعتقدون أن قدرات Opus الحالية فائضة، لذلك قاموا بتحويل الأمن إلى قدرات المنتج.
في السنوات القليلة الماضية، كان المنطق التنافسي لشركات الذكاء الاصطناعي هو "أنا أفضل منك". لديه درجات تشغيل أعلى، ومعلمات أكثر، وأشياء أكثر تعقيدًا يمكنه القيام بها. ولكن عندما تصل قدرة النموذج إلى نقطة حرجة معينة، يبدأ هذا المنطق في الفشل.
قد يعني النموذج الذي يؤدي أداءً جيدًا جدًا في اختبارات الأمن السيبراني أنه يمكن استخدامه أيضًا بشكل ضار. قد يتخذ الوكيل الذي ليس لديه أي قيود على الإطلاق قرارات خطيرة دون علم المستخدم.
المسار الذي اختارته Anthropic هو إغلاق النموذج الأقوى أولاً واستخدام نموذج أضعف ولكنه جيد بما يكفي لاختبار آلية الأمان. لا يعني ذلك أنه مستحيل من الناحية الفنية، بل أنك تختار فعليًا عدم القيام بذلك. ويصبح هذا "القيود" في حد ذاته جزءًا من تمايز المنتج.
ويعتمد نجاح هذه الاستراتيجية على مدى إدراك السوق لمفهوم "الحذر".
إذا كان المستخدمون يهتمون فقط بـ "هل يمكن القيام بذلك"، فإن نهج الأنثروبيك سيبدو محافظًا. ولكن إذا بدأ عملاء الشركات في الاهتمام بمسألة "هل سيحدث خطأ ما"، فإن هذا النوع من التحرير الهرمي والإضعاف الاستباقي لقدرات معينة قد يصبح في الواقع ميزة تنافسية.
في نفس الوقت الذي تم فيه إصدار Opus 4.7، قامت Anthropic أيضًا بتحديث Claude Code، مضيفة الوضع التلقائي ووظائف /ultrareview.
الوضع التلقائي ليس اختيارًا تلقائيًا للنموذج، ولكنه خيار إذن. فهو يسمح لـ Claude باتخاذ بعض قرارات الأذونات للمستخدم، بحيث تكون المهام الطويلة أقل انقطاعًا، ولكن المخاطرة أقل من تخطي تأكيد الإذن تمامًا.
يستهدف هذا التصميم التناقض الأساسي لمنتجات الوكيل: إذا طرحت الكثير من الأسئلة، فسيبدو الوكيل كمتدرب؛ إذا لم تسأل، فإن الخطر سيكون كبيرا جدا.
الزر الأكثر صعوبة في التصميم في عصر الوكيل ليس "ابدأ"، بل "السماح".
في الماضي، كان الذكاء الاصطناعي يجيب فقط على الأسئلة وكان لديه عدد قليل جدًا من الأذونات.
يحتاج الآن إلى تغيير التعليمات البرمجية وقراءة الملفات وتشغيل الأوامر وفتح صفحات الويب وإرسال العلاقات العامة. كل خطوة تنطوي على مخاطر.
إذا كانت كل عملية تتطلب تأكيد المستخدم، فإن استقلالية الوكيل ستكون بلا معنى. ولكن إذا تم التخلي عنهم تمامًا، فسوف يشعر المستخدمون بالقلق من أن الذكاء الاصطناعي سوف يتخذ قرارات خاطئة لا رجعة فيها.
جوهر الوضع التلقائي هو إيجاد التوازن بين "لا تزعجني" و"لا تعبث".
اعتمادًا على مستوى خطورة العملية، فإنه يقرر ما إذا كان سيتم تنفيذها تلقائيًا، أو مطالبة المستخدم، أو طلب إذن صريح.
وهذه أيضًا قفزة هائلة بين "ما يمكن للوكيل فعله" و"ما إذا كان من الممكن استخدامه".
/ultrareview عبارة عن جلسة مراجعة تعليمات برمجية مخصصة تقرأ التغييرات وتشير إلى الأخطاء ومشكلات التصميم.
تعد هذه الوظيفة أكثر متعة من كتابة التعليمات البرمجية، لأنها توضح أن برمجة الذكاء الاصطناعي قد دخلت رسميًا المرحلة الثانية، مما يسمح للذكاء الاصطناعي بمراجعة الكود الذي أنشأه الذكاء الاصطناعي نفسه.
لم يعد من غير المألوف أن يقوم الذكاء الاصطناعي بكتابة التعليمات البرمجية. الأمر النادر حقًا هو ما إذا كان الذكاء الاصطناعي يمكنه مراجعة الكود الخاص به.
/ultrareview يشبه زوج عيون Anthropic الثاني لكلود كود.
أحد الوكلاء مسؤول عن الكتابة، وجلسة أخرى أكثر سرية مسؤولة عن المراجعة.
أستطيع أن أخمن دون النظر إلى البيانات أن هاتين الوظيفتين يجب أن تكونا وظيفتين عاليتي التردد. لأنه في الأساس، كانت هاتان الوظيفتان هما ما يفعله جميع المبرمجين الذين استخدموا Claude Code.
يعد إنشاء التعليمات البرمجية جزءًا فقط من عملية التطوير. إن المراجعة والاختبار وإعادة البناء والتوثيق لها نفس القدر من الأهمية. إذا كان الذكاء الاصطناعي قادرًا على القيام بالخطوة الأولى فقط، فسيكون دائمًا مجرد أداة مساعدة. إذا تمكنت من المشاركة في العملية برمتها، فقد تغير حقًا طريقة تطوير البرامج.
هناك تفاصيل أخرى جديرة بالملاحظة حول هذا الإصدار. ويذكر المسؤول المستخدمين على وجه التحديد في دليل الترحيل بأن استخدام الرموز المميزة في Opus 4.7 قد يزيد، ولكن في تقييم البرمجة الفعلي، تحسنت الكفاءة الإجمالية.
وهذا يدل على أنهم لا يقومون بتحسين تكلفة مكالمة واحدة، ولكن التكلفة الإجمالية لإكمال المهمة. إذا قام الوكيل بالأشياء بشكل صحيح في المرة الأولى، حتى لو كانت مكالمة واحدة أكثر تكلفة، فإن التكلفة الإجمالية ستكون أقل من التجربة والخطأ المتكرر.
هذه فكرة منتج أكثر نضجًا. في الأيام الأولى، كانت منتجات الذكاء الاصطناعي تسعى إلى "الرخيصة" و"السريعة"، لكنها الآن تسعى إلى "الموثوقية".
Opus 4.7 ليس النموذج الأقوى، ولا تعتبره Anthropic النموذج الأقوى.
إنه توازن بين القدرة والسلامة والتكلفة. ولكن ما إذا كان متوازنا حقا، لا أعرف. وهذا يحتاج إلى التحقق من قبل السوق.
على الأقل فيما يتعلق باستراتيجية الإصدار، تقدم Anthropic فكرة جديدة، لأنه في بعض الأحيان يكون "ما لا يجب فعله" أكثر أهمية من "ما يجب فعله".