في غضون 48 ساعة من إصدار Opus 4.7، انقسمت الكلمات الشفهية. وتحتل القائمة الرسمية المرتبة الأولى في العالم، لكن الاختبار العام للاستدلال المنطقي انخفض من 94.7% إلى 41.0%. زاد استهلاك الرموز بنسبة 35%، وأبلغت الواجهة القديمة عن الأخطاء مباشرة، واشتكى المستخدمون بشكل جماعي من أنها "أكثر تكلفة، وأكثر غباء، ومن المرجح أن يردوا عليها". ما الذي قامت به الأنثروبيك بالضبط وما الذي أفسده؟

"4.6 عديم الفائدة على الإطلاق، و4.7 يستهلك بسرعة المفاعل النووي."

بعد إصدار Opus 4.7، ترك أحد مستخدمي Reddit تعليقًا ضمن المنشور الأنثروبي الرسمي.

إنها ليست مزحة، إنها الحقيقة.


وصل منشور Reddit بعنوان "Claude Opus 4.7 هو تراجع خطير، وليس ترقية" بسرعة إلى 3000 إعجاب.

نشر بعض الأشخاص لقطات شاشة قائلين إنه في 4.7 لم يتمكنوا حتى من الإجابة على عدة أحرف بالفراولة بشكل صحيح.


ناهيك عن "التلاعب بالسير الذاتية لتعويض المؤهلات الأكاديمية والألقاب"، والرد على المستخدمين "أنا كسول جدًا بحيث لا يمكنني إجراء التحقق المتبادل"، و"الوصول إلى الحد الأقصى بعد طرح ثلاثة أسئلة" هي بعض التعليقات الأكثر شيوعًا بين مستخدمي الإنترنت.

بعد تجربته، وصف جيرجيلي أوروس، مؤلف كتاب "المهندس البراغماتي"، النموذج بأنه "عدواني بشكل غير متوقع" ثم استسلم وعاد إلى 4.6.


التوبيخ هنا لم يهدأ، لكن مجموعة من البيانات هناك تشير إلى الاتجاه المعاكس.

أعطى التحليل الاصطناعي Opus 4.7 درجة مؤشر الذكاء 57، لتحتل المرتبة الأولى في العالم مع GPT-5.4 وGemini 3.1 Pro.

ووصفه رجل الأعمال جيريمي هوارد بأنه "النموذج الأول الذي يفهم حقًا ما أفعله في العمل". يستخدمه الرئيس التنفيذي لشركة Y Combinator Garry Tan في المشاريع.

قال بعض مستخدمي الإنترنت أن كلود أوبوس 4.7 قد حقق الذكاء العام الاصطناعي (AGI).


في نفس النموذج، يرى بعض الأشخاص ظل الذكاء الاصطناعي العام، ويشعر بعض الأشخاص أن سير عملهم قد انفجر.

بعد يومين من ظهورها على الإنترنت، مزقت Opus 4.7 مجتمع الذكاء الاصطناعي.

لماذا المستخدمين غاضبون جدا؟

وبتفكيك الأمر، يتركز غضب المستخدمين في ثلاث نقاط، كل منها يضرب حيوية المستخدمين الثقيلين.

أولاً،القدرة على التعليمات البرمجية تنخفض. أبلغ عدد كبير من المطورين أنه بعد الترقية من 4.6 إلى 4.7، بدأت مهام البرمجة التي كان من الممكن إكمالها بشكل ثابت من قبل في حدوث أخطاء متكررة.

وهي جميعها عمليات أساسية في سير العمل اليومي: يصبح إكمال التعليمات البرمجية بطيئًا، ويتدهور فهم السياق، ويصبح منطق السلاسل المنطقية المعقدة أضعف بشكل كبير.

القدرة على البرمجة هي الورقة الرابحة لسلسلة Opus. والآن بعد أن واجهت الورقة الرابحة مشكلة، فمن الطبيعي أن يكون رد الفعل العنيف هو الأقوى.

قال أحد مستخدمي Reddit إنه استخدم مهمة إعادة هيكلة طويلة مع إجابات معروفة لاختبار الانحدار. نتيجة لذلك، قام النموذج بثقة بتغيير الاختبارات الثلاثة التي كان من الممكن أن تمر في 4.6 واضطر إلى التراجع.


امتلأ قسم التعليقات بمئات التجارب المماثلة.

ثانية،الانحدار في جودة الاستدلال.

الأمر ليس بسيطًا مثل التباطؤ، ولكنه تدهور ملموس في عمق التفكير. إن المشكلات المعقدة التي كان يتم حلها في خطوة واحدة تتطلب الآن أسئلة متكررة وتوجيهًا يدويًا.

صناعة الذكاء الاصطناعي النصية هذه ليست غريبة. الجدل حول "تقليل الذكاء" الذي سببه GPT-4 Turbo العام الماضي هو نفسه تقريبًا: لقد تحسنت نتيجة التشغيل، لكن الخبرة انخفضت.

ثالث،أنفق المزيد من المال، واحصل على تجربة أسوأ.

يعد Opus نفسه أغلى نموذج أنثروبيكي.

فاتورة API الشهرية للمستخدمين الثقيلين ليست مبلغًا صغيرًا. بعد إنفاق المزيد من الأموال، والترقية إلى إصدار أحدث، ولكن الحصول على تجربة أسوأ، لا يتوقف الغضب عند المستوى الفني.

المعيار أقوى

لكن المستخدمين لا يشترونه

في مواجهة رد الفعل العنيف، لم يكن رد فعل الأنثروبيك بطيئا.

أشارت أنثروبيك في دليل الهجرة الرسمي إلى أن Opus 4.7 به العديد من التغييرات السلوكية مقارنة بـ 4.6. وشددت أيضًا على أن Opus 4.7 لا يزال النموذج الأكثر شمولاً والمتاح بشكل عام في الوقت الحالي، ويؤدي أداءً جيدًا بشكل خاص في مهام الوكيل طويلة المدى، والعمل القائم على المعرفة، والمهام المرئية، ومهام الذاكرة.


نتائج التقييم متعدد الأبعاد للتحليل الاصطناعي موجودة أيضًا. سجلت Opus 4.7 مستويات عالية جديدة في أبعاد متعددة مثل التفكير الرياضي، وفهم اللغات المتعددة، ومعالجة السياق الطويل.


يظهر تقييم التحليل الاصطناعي أن Opus 4.7 (الحد الأقصى) يحتل المركز الأول برصيد 57 نقطة، متعادلًا مع Gemini 3.1 Pro Preview وGPT-5.4.

كما يوفر معيار NYT Connections Extended على GitHub أعلى تصنيف.

ليس من الصعب فهم المنطق الإنساني: فتكرار النماذج الكبيرة ينطوي حتماً على إعادة توزيع القدرات. تم تحسين بعض الأبعاد، بينما قد يتم التراجع عن بعضها الآخر. هذه مقايضة هندسية.

لكن المستخدمين لا ينظرون إلى هذا، بل ينظرون فقط إلى ما إذا كان بإمكانهم القيام بالعمل بأيديهم.

السعر لم يرتفع

لكن الفاتورة ارتفعت

لم تقم Anthropic بتعديل سعرها، وسعر الوحدة لكل مليون رمز هو بالضبط نفس سعر Opus 4.6 و4.5.

لكن دليل الهجرة الرسمي يقول:عندما يقوم برنامج الرمز المميز الجديد بمعالجة نفس النص، قد يصل استخدام الرمز المميز إلى ما يقرب من 1.0 مرة إلى 1.35 مرة من المبلغ الأصلي.


ما هو المعنى؟ بالأمس استخدمت 4.6 لتشغيل مطالبة بقيمة 10 دولارات. اليوم، إذا قمت بالتبديل إلى 4.7 لتشغيل نفس الموجه، فقد يكلفك ذلك من 11 إلى 13.5 دولارًا.

لم يتغير سعر الوحدة، ولكن نفس العمل يستهلك المزيد من الرموز. قال منشئ Claude Code، بوريس تشيرني، لاحقًا على X:

يستهلك Opus 4.7 المزيد من رموز التفكير، لذلك قمنا بزيادة الحد الأقصى للمعدل لجميع المشتركين للتعويض عن ذلك.

ومع ذلك، لم يتم الإعلان عن الزيادة المحددة.

النموذج ليس غبيا

لكن سير العمل انفجر

إذا كنت مطورًا ثقيلًا لـ Claude، فربما واجهت شيئًا كهذا في يوم إصدار 4.7:

Thinking={"type":enabled"،budget_tokens": 32000} مكتوب في الكود للتحكم في ميزانية التفكير للنموذج.

يعمل بشكل ممتاز على 4.6 التغيير إلى 4.7 وإرجاع خطأ 400 مباشرة. لا توجد فترة انتقالية للإهمال، ولا يوجد وضع توافق، ويتم الإبلاغ عن خطأ مباشرةً.

يشرح دليل الترحيل الرسمي البديل: استخدمthinking={"type":"adaptive"} بالإضافة إلى معلمة الجهد الجديدة بدلاً من ذلك.


لكن معظم المطورين لن يقرؤوا دليل الترحيل في يوم إصدار النموذج.

أول شيء فعلوه هو تغيير اسم النموذج من 4.6 إلى 4.7 ووجدوا أن كل شيء توقف عن العمل.

التغيير الأكثر دقة هو أن محتوى التفكير أصبح الآن مخفيًا بشكل افتراضي.

في عصر 4.6، يتم عرض النسخة الموجزة لعملية تفكير النموذج بشكل افتراضي. في الإصدار 4.7، يصبح الإعداد الافتراضي "محذوفًا". يبدو أن كتلة التفكير في الاستجابة فارغة.

لكنك لا تزال تدفع الثمن الكامل مقابل رموز التفكير غير المرئية هذه.

الكلمات الرسمية لشركة أنثروبيك: إن حذفها لن يؤدي إلا إلى تقليل زمن الوصول، لكنه لن يقلل من التكاليف.

يبدو الأمر كما لو أنك طلبت قائمة محددة وقال النادل: "من أجل تسريع وقت التقديم، لن نعرض لك الأطباق، ولكن لا يزال يتعين عليك دفع السعر بالكامل."

"الرد على الحديث" ليس خطأ

إحدى أقوى شكاوى مستخدمي الإنترنت هي أن 4.7 أصبح "قتاليًا" (هجوميًا).

أبلغ العديد من المطورين أن 4.7 سيرفض تنفيذ التعليمات التي يعتبرها إشكالية، وأن لهجته أصعب بأكثر من مستوى من 4.6.

فيما يتعلق بهذه القضية، يحتوي دليل الهجرة الرسمي الصادر عن الأنثروبيك على جملة بالغة الأهمية:

سوف يفهم كلود أوبوس 4.7 الكلمات السريعة بطريقة أكثر حرفية ووضوحًا.

بمعنى آخر: 4.6 سوف "يخمن ما تقصده"، و4.7 سوف "يفعل ما تقوله".

إذا كانت مطالبتك غامضة في الأصل، فيمكن أن يساعدك الإصدار 4.6 في اكتشافها، لكن لن يساعدك الإصدار 4.7. بالنسبة لبعض المستخدمين، يسمى هذا "العصيان"، ولكن بالنسبة للمستخدمين الآخرين، يسمى هذا "أخيرًا عدم التخمين".

على سبيل المثال،يستخدم مصمم المؤشر Ryo Lu الإصدار 4.7 لتخطيط المنتج ويعتقد أن هذا النوع من التنفيذ الدقيق هو بالضبط ما يحتاج إليه.

لذلك، وراء تسمية "الرد على الحديث" يكمن أن الأنثروبيك تعمل على تحويل كلود من "مساعد خاضع" إلى "زميل أكثر حزماً".

وفقًا للمراجعات العامة التي أجراها التحليل الاصطناعي، سجل Opus 4.7 1753 Elo في الناتج المحلي الإجمالي Val-AA، متقدمًا بـ 79 نقطة عن المركز الثاني.

يقيس الناتج المحلي الإجمالي (GDVval-AA) أداء النموذج في مهام العمل المعرفية الحقيقية في 44 مهنة و9 صناعات رئيسية. في هذا البعد، يسحق 4.7 جميع المعارضين، بما في ذلك سابقه 4.6 (1619 إيلو).

وفي الوقت نفسه، انخفض معدل الهلوسة البالغ 4.7 ​​بنسبة 25 نقطة مئوية من 4.6 إلى 36%.

كيف يتم ذلك؟ وفقًا للتحليل الاصطناعي، فإنه يعتمد بشكل أساسي على "اختيار عدم الإجابة بشكل متكرر" ويفضل قول "لا أعرف" بدلاً من اختلاق الأشياء.

يوضح هذا أن نية Anthropic ليست تحسين تجربة الدردشة لدى Claude، بل تحسين قدرة Claude على العمل.


تصدرت Opus 4.7 الناتج المحلي الإجمالي (GDVval-AA) بـ 1753 إيلو، بفارق 79 نقطة عن المركز الثاني. يقيس هذا الاختبار قدرة الذكاء الاصطناعي على إكمال العمل المعرفي بشكل مستقل في 44 مهنة.

لكن بالنسبة للمستخدمين، في بعض السيناريوهات، قد لا يشعرون بالتحسن على الإطلاق. وبدلاً من ذلك، يشعرون أولاً أن الرمز المميز يصبح أكثر تكلفة، وتبلغ الواجهة عن الأخطاء، وتصبح النغمة أكثر صعوبة.

وانخفضت نسبة 94.7% إلى 41.0%.

إذا كان من الممكن أن تُعزى مستويات المشاكل الثلاثة المذكورة أعلاه إلى "تكاليف الترحيل + عادات الاستخدام غير المتوافقة"، فلا تزال هناك مجموعة من الأرقام التي لا يمكن تفسيرها بتكاليف الترحيل.

يستخدم معيار NYT Connections Extended الذي تم الحفاظ عليه علنًا على GitHub 940 ألغاز New York Times Connections لتقييم الاستدلال المنطقي وقدرات مكافحة التدخل لنماذج اللغات الكبيرة.

يزيد هذا الاختبار من الصعوبة عن طريق إضافة كلمات تداخل إضافية، وهو بالفعل أحد أصعب المعايير المعترف بها من قبل المجتمع.


NYT Connections التصنيف الموسع. حصلت Opus 4.6 (الاستدلال العالي) على 94.7%، في حين حصلت Opus 4.7 (الاستدلال العالي) على 41.0% فقط. كان هناك انخفاض مثل الهاوية في نفس الاختبار.

النتائج هي: أوبوس 4.6 (الاستدلال العالي) حصل على 94.7%، أوبوس 4.7 (الاستدلال العالي) حصل على 41.0%.

من الصف الأول إلى الرسوب.

تأتي قطعة أخرى من البيانات من معيار MRCR v2 الذي يضم مليون سياق رمزي في بطاقة نظام Opus 4.7 المقدمة من Anthropic:4.6 حصل على 78.3%، و4.7 حصل على 32.2% بانخفاض 46 نقطة مئوية..


https://cdn.sanity.io/files/4zrzovbb/website/037f06850df7fbe871e206dad004c3db5fd50340.pdf

يتوافق اتجاه هذه المجموعة من البيانات مع استنتاج NYT Connections:في بعض مهام التفكير المنطقي واسترجاع السياق الطويل، أظهر الإصدار 4.7 تراجعًا كبيرًا.

ولكن لنكن واضحين أيضًا: هذه أنواع محددة من الاختبارات. لا يمكنهم إثبات أن 4.7 أصبح "غبيًا في جميع المجالات"، تمامًا مثلما لا يستطيع الرصاص في الناتج المحلي الإجمالي (GDVval-AA) إثبات أن 4.7 أصبح "قويًا في جميع المجالات".

صبر المستخدم

بدء العد التنازلي

إن الجدل حول Opus 4.7 ليس حالة معزولة.

واجهت OpenAI الجدل الدائر حول GPT-4 Turbo، وواجهت أيضًا رد فعل عنيفًا مشابهًا من قبل المستخدم عندما قامت بإزالة GPT-4o قبل بضعة أشهر. الآن هناك منشورات على Reddit "للحزن" على كلود 4.5، مليئة بالمعجبين الذين يطلقون على أنفسهم اسم "المحطمين".


في كل مرة تتم فيها ترقية النموذج، تفقد مجموعة من المستخدمين الأدوات التي تكيفوا معها.

أداة الرمز المميزة الجديدة تجعل ميزانية التكلفة القديمة غير صالحة؛ السلوك الافتراضي الجديد يجعل الموجه القديم لم يعد سهل الاستخدام؛ مواصفات الواجهة الجديدة تجعل أخطاء الإبلاغ عن التعليمات البرمجية القديمة مباشرة ...

يكون كل عنصر معقولًا من الناحية الفنية عند عرضه بشكل فردي، ولكن عند تجميعه معًا، يتم دفع تكلفة الترحيل بأكملها إلى المستخدمين مرة واحدة.

لماذا أصبحت العارضات أكثر ذكاءً وأصبح المستخدمون أكثر قلقًا؟ لأن كل "أفضل" يعني قلب آخر "صحيح تمامًا".

كتب الموظف الأنثروبي أليكس ألبرت في اليوم التالي للإفراج:

لقد تم الآن إصلاح العديد من الأخطاء التي ربما واجهها الأشخاص عندما بدأوا تجربة Opus 4.7 بالأمس لأول مرة. شكرا لكم جميعا على التسامح والصبر.


يمكن إصلاح الأخطاء. لكن الثقة شيء سهل الاستهلاك وبطيء إعادة البناء.

قد لا يكون عنق الزجاجة التالي في هذه الجولة من سباق التسلح للذكاء الاصطناعي هو قوة الحوسبة والبيانات فحسب، بل أيضًا من يمكنه التكرار بسرعة دون التخلص من مستخدميه.

هذه المرة، أصدرت Anthropic دليلًا للترحيل، ولكن ما يريده المستخدمون أكثر هو الوعد: لا يمكن للترقية أن تطيح بسير العمل الأصلي وتبدأ من جديد.

عندما يتحول الذكاء الاصطناعي من لعبة إلى أداة إنتاجية، فإن "التكرار السريع" لم يعد ميزة غير مشروطة.

كيف سيأتي Opus 4.8؟ الأنثروبي لم يقل بعد.

لكن صبر المستخدمين بدأ في العد التنازلي.