في يوم الخميس، أصدرت OpenAI رسميًا جيلًا جديدًا من النماذج الأساسية، GPT-5.4، مما يجعلها "النموذج الأقوى والأكثر كفاءة والأكثر تطورًا للعمل الاحترافي حتى الآن". بالإضافة إلى الإصدار القياسي، أطلقت OpenAI في الوقت نفسه إصدارين مختلفين: GPT‑5.4 Thinking، الذي يركز على قدرات التفكير المعقدة، وGPT‑5.4 Pro، الذي يستهدف سيناريوهات التطبيقات عالية الأداء.

فيما يتعلق بقدرات النموذج، يدعم إصدار واجهة برمجة التطبيقات (API) لـ GPT‑5.4 نافذة سياق تصل إلى مليون رمز مميز، وهو ما يتجاوز بكثير أي نموذج تم توفيره مسبقًا بواسطة OpenAI، وهو مفيد لمعالجة سير العمل طويل السلسلة مثل المستندات الطويلة أو المشاريع المعقدة أو المهام متعددة الجولات. وشددت OpenAI أيضًا على تحسين كفاءة استخدام الرموز، قائلة إن GPT-5.4 يمكنه إكمال المهام بنفس الصعوبة مثل نموذج الجيل السابق باستخدام عدد أقل بكثير من الرموز، وبالتالي تشكيل مزايا من حيث التكلفة وسرعة الاستجابة.
تُظهر أحدث نتائج الاختبار المعياري أن GPT-5.4 قد حقق تقدمًا كبيرًا في العديد من التقييمات الموثوقة، بما في ذلك تسجيل أرقام قياسية جديدة في اختباري سيناريو "تشغيل الكمبيوتر" الخاصين بـ OSWorld-Verified وWebArena Verified، وتحقيق أعلى درجة بنسبة 83% في مجموعة تقييم العمل المعرفي الخاص بـ OpenAI، والتي تمثل إجمالي الناتج المحلي. كما احتل GPT‑5.4 المرتبة الأولى في معيار APEX‑Agents الذي حددته شركة Mercor الناشئة للمهارات المهنية مثل القانون والتمويل.
قال بريندان فودي، الرئيس التنفيذي لشركة Mercor، في بيان له إن GPT-5.4 يتفوق في إنتاج نتائج طويلة الأجل، بما في ذلك العروض التقديمية والنماذج المالية والتحليل القانوني، "مع الحفاظ على الأداء العالي، بشكل أسرع وبتكلفة أقل من النماذج المتطورة المماثلة."
فيما يتعلق بالموثوقية، يواصل GPT-5.4 اتجاه البحث والتطوير الخاص بـ OpenAI لتقليل "الأوهام" والأخطاء الواقعية. تظهر نتائج التقييم الداخلي الرسمية أنه بالمقارنة مع GPT-5.2، فإن النموذج الجديد لديه انخفاض بنسبة 33% في احتمالية الأخطاء على مستوى عبارة واحدة، وانخفاض بنسبة 18% في احتمال الأخطاء في الإجابة الإجمالية.
يأتي هذا الإصدار أيضًا مع تغيير مهم في طبقة واجهة برمجة التطبيقات: تطلق OpenAI آلية جديدة لاستدعاء الأدوات تسمى Tool Search. في الحل القديم، يجب على موجه النظام إدخال تعريفات جميع الأدوات المتاحة في النموذج مرة واحدة. مع زيادة عدد الأدوات، سيشغل هذا الجزء من الموجه نفسه كمية كبيرة من الرموز المميزة. يسمح بحث الأدوات الجديد للنماذج بالاستعلام عن تعريفات الأدوات عند الطلب، مما يقلل بشكل كبير من الحمل في الأنظمة ذات أحجام الأدوات الأكبر، مما يجعل الاستدعاءات أسرع وأقل تكلفة.
من خلال التركيز على السلامة وإمكانية التحكم، أضافت OpenAI تقييمًا جديدًا للسلامة هذه المرة لاختبار أداء "سلسلة الأفكار" للنموذج في المهام متعددة الخطوات. لطالما كان الباحثون قلقين من أن النماذج ذات القدرات الاستدلالية قد "تخفي" أو تخفي مسار الاستدلال الحقيقي أثناء عملية التفكير المتسلسل. وقد أظهرت الأبحاث السابقة أن هذا قد يحدث بالفعل في ظل ظروف معينة. تظهر نتائج التقييم الجديدة التي قدمتها OpenAI أنه في إصدار GPT-5.4 Thinking، يكون احتمال مثل هذا الأداء "المخادع" أقل. "وهذا يدل على أن النموذج يفتقر إلى القدرة على إخفاء عملية الاستدلال بشكل فعال، ولا تزال مراقبة سلسلة التفكير أداة أمنية فعالة."
من خلال الإطلاق المتزامن لـ GPT-5.4 وإصداراتها Pro وThinking، تحاول OpenAI إيجاد توازن جديد بين الإنتاجية المهنية وكفاءة التكلفة وإمكانية التحكم الأمني، مما يدفع النماذج الكبيرة إلى مزيد من السيناريوهات عالية القيمة مثل القانون والتمويل والعمل المعرفي.