نفيديااليومتم إطلاق OpenReasoning-Nemotron، وهي مجموعة من أربعة نماذج استدلالية مبسطة تحتوي على 1.5 مليار و7 مليار و14 مليار و32 مليار معلمة، وجميعها مستمدة من DeepSeek R1 0528 مع 67.1 مليار معلمة. من خلال ضغط نموذج "المعلم" الضخم إلى أربعة نماذج "طالبة" قائمة على Qwen-2.5، تتيح NVIDIA إجراء تجارب استدلالية متقدمة حتى على أجهزة الألعاب القياسية دون القلق بشأن رسوم وحدة معالجة الرسومات المرتفعة واستخدام السحابة.

المفتاح ليس التقنيات المعقدة، بل البيانات الأولية. استخدمت NVIDIA خط أنابيب NeMo Skills لإنشاء 5 ملايين حل من حلول الرياضيات والعلوم والتعليمات البرمجية، ثم قامت بضبط كل حل من خلال التعلم الخالص الخاضع للإشراف. حاليًا، سجل نموذج المعلمة البالغ 32 مليارًا 89.2 نقطة على AIME24 و73.8 نقطة في مسابقة HMMT لشهر فبراير، في حين حقق حتى الإصدار الذي يضم 1.5 مليار معلمة درجات قوية بلغت 55.5 و31.5 نقطة.

تتصور NVIDIA هذه النماذج كمجموعة أدوات بحثية قوية. جميع نقاط التحقق الأربع متاحة للتنزيل على Hugging Face، مما يوفر أساسًا متينًا لاستكشاف الاستدلال القائم على التعلم المعزز أو تخصيص النماذج لمهام محددة. باستخدام وضع GenSelect (تكرارات متعددة لكل سؤال)، من الممكن إنشاء بنيات متوازية متعددة واختيار أفضل إجابة، مما يؤدي إلى أداء استثنائي لنموذج 32B ينافس أو حتى يتجاوز أداء OpenAI العالي o3 في معايير الرياضيات والترميز المتعددة.

نظرًا لأن NVIDIA قامت بتدريب هذه النماذج باستخدام الضبط الدقيق الخاضع للإشراف فقط وليس التعلم المعزز، فإن المجتمع لديه نقطة بداية واضحة ومتقدمة لتجارب التعلم المعزز المستقبلية. بالنسبة للاعبين وعشاق المنزل، إذا كان لديك وحدة معالجة رسومات ألعاب أكثر قوة، فسنحصل على نموذج مترجم بالكامل يمكن أن يكون قريبًا جدًا من أحدث ما توصلت إليه التكنولوجيا.