The Dark Side of the Moon مفتوح المصدر مرة أخرى ويحتل المرتبة الأولى في العالم، متجاوزًا الإصدار الجديد من DeepSeek-R1

في وقت مبكر من هذا الصباح، أطلقت Dark Side of the Moon Kimi-Dev-72B، وهو نموذج كبير جديد مفتوح المصدر لمهام هندسة البرمجيات. حقق هذا النموذج أعلى مستوى لنموذج مفتوح المصدر في العالم في اختبار قياس البرمجة المعتمد من SWE-bench. مع 72 بايت فقط من المعلمات، فقد تجاوز الإصدار الجديد من DeepSeek-R1، الذي تم إصداره للتو في 28 مايو ويبلغ حجم المعلمات 671 بايت.

حقق Kimi-Dev-72B اختبار SWE-bench، وهو الاختبار المعياري لقدرة هندسة برمجيات الذكاء الاصطناعي60.4%النتيجة العالية هي درجة SOTA القياسية للنماذج مفتوحة المصدر.

▲ تم التحقق من أداء النموذج مفتوح المصدر على SWE-bench

▲ تم التحقق من أداء النموذج مغلق المصدر على SWE-bench

تم تحسينه من خلال التعلم المعزز على نطاق واسع. إنه قادر على تصحيح المستودعات الحقيقية بشكل مستقل في Docker ولا تتم مكافأته إلا عند اجتياز مجموعة الاختبار بأكملها. وهذا يضمن أن الحل صحيح وقوي ويلتزم بمعايير التطوير الواقعية.

Kimi-Dev-72B متاح الآن للتنزيل والنشر على Hugging Face وGitHub. تتضمن الموارد الرئيسية التي تم إصدارها للمجتمع أوزان النماذج وكود المصدر والتقارير الفنية التي سيتم إصدارها قريبًا.

عنوان الوجه المعانق:Huggingface.co/moonshotai/Kimi-Dev-72B

عنوان جيثب:github.com/MoonshotAI/Kimi-Dev

يقدم Dark Side of the Moon مفهوم التصميم والتفاصيل الفنية لـ Kimi-Dev-72B، بما في ذلكمزيج من BugFixer وTestWriter,تدريب منتصف المدة,التعلم المعززواللعب الذاتي أثناء الاختبار.

1. مزيج من BugFixer وTestWriter

التصحيح الذي ينجح في إصلاح الخلل يجب أن يجتاز اختبارات الوحدة التي تعكس الخلل بدقة. في الوقت نفسه، يجب أن يؤدي الاختبار الناجح الذي يعيد إنتاج الخطأ إلى ظهور خطأ تأكيد واجتيازه بعد تطبيق تصحيح إصلاح الخطأ الصحيح على قاعدة التعليمات البرمجية. وهذا يجعل BugFixer وTestWriter متكاملين، ويجب أن يؤدي نموذج لغة برمجة قوي بما فيه الكفاية أداءً جيدًا في كلا الجانبين.

لدى BugFixer وTestWriter سير عمل مماثل: كلاهما يعثر على الملف الصحيح لتحريره، ثم يقومان بتحرير تحديث التعليمات البرمجية الصحيح، سواء كان ذلك لإصلاح تطبيق هش أو إدراج وظيفة Unittest. لذلك، بالنسبة لكلا الدورين، يستخدم Kimi-Dev-72B نفس الإطار البسيط، والذي يتكون من مرحلتين فقط: توطين الملفات وتحرير التعليمات البرمجية. وضع التصميم المزدوج لـ BugFixer وTestWriter الأساس لـKimi-Dev-72B.

2. التدريب منتصف المدة

لتعزيز المعرفة السابقة لـ Kimi-Dev-72B باعتباره BugFixer وTestWriter، يستخدم Dark Side of the Moon تقريبًا.150 ملياربيانات حقيقية عالية الجودة للتدريب منتصف المدة.

بأخذ نموذج Qwen 2.5-72B الأساسي كنقطة انطلاق، تم جمع Dark Side of the Moonالملايينتُعد مشكلات GitHub وعروض العلاقات العامة بمثابة مجموعة بيانات التدريب في منتصف المدة. تم إنشاء وصفة البيانات بعناية لتمكين Kimi-Dev-72B من معرفة كيفية تفكير المطورين البشريين في مشكلات GitHub، وكتابة إصلاحات التعليمات البرمجية، واختبارات الوحدة.

خضع Dark Side of the Moon أيضًا لعملية تطهير صارمة للبيانات، مما أدى إلى إزالة جميع المستودعات من SWE-bench Verified.

يعزز التدريب في منتصف المدة بشكل كامل فهم النموذج الأساسي لإصلاحات الأخطاء الفعلية واختبار الوحدة، مما يجعل النموذج نقطة انطلاق أفضل للتدريب اللاحق على التعلم المعزز.

3. تعزيز التعلم

بفضل التدريب المناسب في منتصف المدة وSFT، يتفوق Kimi-Dev-72B في تعريب الملفات. لذلك، تركز مرحلة التعلم المعزز على تحسين قدرات تحرير التعليمات البرمجية.

يستخدم Dark Side of the Moon طريقة تحسين السياسة الموضحة في Kimi k1.5، والتي تؤدي أداءً جيدًا في مهام الاستدلال. بالنسبة إلى SWE-bench Verified، يركز Dark Side of the Moon على التصميمات الرئيسية الثلاثة التالية:

المكافآت تعتمد فقط على النتائج.يتم استخدام نتيجة التنفيذ النهائية لـ Docker (0 أو 1) فقط كمكافأة، ولا يتم استخدام أي تنسيق أو مكافأة قائمة على العملية أثناء التدريب.
مجموعة موجه فعالة.قم بتصفية التلميحات حيث يكون معدل نجاح النموذج صفرًا في ظل تقييم العينات المتعددة، وبالتالي استخدام دفعات كبيرة بشكل أكثر كفاءة. اعتماد طريقة تعلم المنهج لتقديم مطالبات جديدة وزيادة صعوبة المهام تدريجياً.
التعزيز بالأمثلة الإيجابية.في المرحلة النهائية من التدريب، يتم تضمين أحدث العينات الناجحة من التكرارات السابقة في الدفعة الحالية. وهذا يساعد النموذج على تعزيز أنماط النجاح وتحسين الأداء.

يستفيد Kimi-Dev-72B من التدريب على عدد قابل للتطوير من مهام حل المشكلات باستخدام بنية تحتية داخلية قوية ومتوازية للغاية.

4. اللعب الذاتي أثناء الاختبار

بعد التعلم المعزز، يستطيع Kimi-Dev-72B إتقان أدوار BugFixer وTestWriter في نفس الوقت. أثناء عملية الاختبار، ستتبنى آلية اللعب الذاتي لتنسيق إصلاح الأخطاء واختبار قدراتها على الكتابة.

▲اللعبة الذاتية بين BugFixer وTestWriter أثناء الاختبار

يمكن أن تولد كل مشكلة ما يصل إلى 40 مرشحًا للتصحيح و40 مرشحًا للاختبار (وفقًا للإعداد القياسي بدون وكيل)، ويمكن ملاحظة التأثير الممتد للعبة الذاتية أثناء الاختبار.

الخلاصة: ستركز التكرارات المستقبلية على التكامل العميق والتكامل الأكثر سلاسة في سير العمل

يقوم Dark Side of the Moon بالبحث وتطوير طرق لتوسيع قدرات Kimi-Dev-72B واستكشاف مهام هندسة البرمجيات الأكثر تعقيدًا.

وستركز إصداراته المستقبلية على التكامل الأعمق مع بيئات التطوير المتكاملة الشائعة (IDEs)، وأنظمة التحكم في الإصدار وخطوط أنابيب CI/CD، مما يسمح لـ Kimi-Dev-72B بالاندماج بسلاسة أكبر في سير عمل المطورين.

تعد الشركة بمواصلة تحسين Kimi-Dev-72B، وإجراء اختبارات الفريق الأحمر الصارمة، وإصدار نماذج أكثر قوة للمجتمع.