بعد أن أشاد إيلون ماسك، الرئيس التنفيذي لشركة تيسلا، علنًا بأحدث نتائج الأبحاث لشركة كيمي الصينية للذكاء الاصطناعي، رد الحساب الرسمي لكيمي بنبرة فكاهية اليوم: "صاروخك ليس سيئًا أيضًا!"أصدر فريق كيمي مؤخرًا تقريرًا فنيًا يقترح آلية جديدة لبقايا الانتباه لتحقيق إعادة بناء مدمرة للاتصال المتبقي التقليدي الذي تم استخدامه في مجال التعلم العميق لما يقرب من عشر سنوات، وسرعان ما اكتسب اهتمامًا عالميًا.

تستخدم الاتصالات المتبقية التقليدية "تراكم الوزن المتساوي الثابت" لنقل المعلومات. يمكن أن تؤدي زيادة عدد الطبقات بسهولة إلى تخفيف المعلومات الضحلة، وانخفاض كفاءة التدريب، وضعف الاستقرار.

يعادل ابتكار كيمي تثبيت "مرشح ذكي" على الذكاء الاصطناعي، وترحيل آلية انتباه المحول إلى البعد العميق للنموذج، مما يسمح لكل طبقة بفحص المعلومات المفيدة سابقًا ديناميكيًا، وتقليل التكرار، وتحسين كفاءة النقل.

ومن أجل تجنب التحميل الزائد على الذاكرة، صمم الفريق استراتيجية "حجب الانتباه المتبقي". بعد تقسيم النموذج إلى كتل، يتم الاحتفاظ بالتراكم التقليدي في الكتل لضمان الاستقرار.يتم استخدام الترجيح الديناميكي بين الكتل، ولا يزيد تأخير الاستدلال إلا بأقل من 2%، مما يحقق التوازن بين الأداء والكفاءة.

تظهر القياسات الفعلية أن كفاءة التدريب لنموذج المعلمة 48B قد زادت بمقدار 1.25 مرة، وأن المنطق العلمي ودرجات الإجابة على الأسئلة الرياضية زادت بنسبة 7.5% و3.6% على التوالي، مما يحل بشكل فعال مشكلة عدم التوازن في التدريب النموذجي التقليدي.

تحدث ماسك، المعروف بكونه انتقائيًا، عن البحث وعلق قائلاً: "عمل كيمي مثير للإعجاب". إن جهاز xAI الخاص به هو في طور إعادة الهيكلة، وهذا الاعتراف يظهر ثقله الفني.

بالإضافة إلى ذلك، كتب جيري توريك، نائب الرئيس السابق للأبحاث في OpenAI، والمعروف باسم "أبو نماذج الاستدلال"، أيضًا: "التعلم العميق 2.0 قادم".