تصنيف الاختبار العام لبرمجة الويب: DeepSeek-R1 تجاوز كلود 4 وتوج بالمركز الأول على مستوى العالم

هل وضع ملك البرمجة كلود غير مستقر؟ ؟ تم إصدار أحدث تقرير عن المعركة للساحة النموذجية الكبيرة.حصل الإصدار الجديد من DeepSeek R1 على المركز الأول في برمجة الويب، متفوقًا بفارق ضئيل على Claude Opus 4. يجب أن تعلم أن Claude Opus 4 معروف بأنه "أقوى نموذج ترميز في العالم".

إذن، ما هو أصل DeepSeek-R1-0528 الذي يستطيع هزيمة كلود أوبوس 4 في البرمجة؟

بالنظر إلى الاسم، قد تعتقد أنه تحديث بسيط للإصدار، ولكن في الواقع -

إنه يساوي تقريبًا OpenAI o3-high على LiveCodeBench، حتى أن العديد من مستخدمي الإنترنت توقعوا أنه R2 الأسطوري.

بالنظر إلى الأمر بهذه الطريقة، عندما يتعلق الأمر بالبرمجة، لا يبدو أنه من السهل العبث بأي من الجانبين ~

لذلك دون مزيد من اللغط، دعونا نختبر DeepSeek-R1-0528 بشكل مباشر لنرى مدى قوة Kangkang.

اختبره في الواقع

حاليًا، تم إطلاق DeepSeek-R1-0528 على موقع وتطبيق DeepSeek الرسمي والبرنامج المصغر (Deep Thinking المفتوح).

هنا نذهب مباشرة إلى الموقع الرسمي للتجربة.

الاختبار الأول: إنشاء تطبيق متحرك للنظام الشمسي

الكلمات السريعة هي كما يلي:

أنشئ تطبيقًا متحركًا للنظام الشمسي باستخدام بحث الويب.

مجرد التفكير49 ثانيةفي وقت لاحق، قدم DeepSeek-R1-0528 قطعة من كود بايثون.

بعد التشغيل باستخدام VS Code، تكون النتائج كما يلي:

توجد رسوم متحركة يمكن تشغيلها بشكل مستقل، لكن الصفحة غير منتظمة نسبيًا.

ومع ذلك، إذا قمت بالتغيير إلى كلمات مطالبة أخرى، فسيكون التأثير مختلفًا بشكل واضح.

استخدم Three.js لمحاكاة النظام الشمسي وعرض اسم الكوكب عندما يحوم الماوس فوقه.

في 34 ثانية فقط، أوضح DeepSeek-R1-0528 فكرة التصميم:

المفتاح هو هذه المرةيمكن تشغيله مباشرة بنقرة واحدة، لا حاجة لفتح المحرر الخاص بك بشكل منفصل.(يبدو أن تشغيل الوظيفة يشبه فتح صندوق أعمى وقد لا يظهر دائمًا)

كما أنها تحتوي على رسوم متحركة وتفاعلية، وينتقل التأثير مباشرةً إلى Next Nevel~

الاختبار الثاني: إنتاج صفحات الويب الأمامية

بعد ذلك، نطلب من DeepSeek إنشاء موقع ويب بموضوع AGI، وتكون الكلمات المطالبة كما يلي:

يرجى تصميم صفحة ويب حول موضوع الذكاء العام الاصطناعي (AGI)، بما في ذلك ثلاثة أجزاء مفاهيمية: "تبادل المعرفة"، و"المجتمع" و"خلق المستقبل". يجب أن يكون كل جزء مزودًا برمز مناسب ووصف موجز. النمط العام حديث وتكنولوجي، ويسلط الضوء على روح AGI المبتكرة والتعاونية. استخدم HTML وCSS وJavaScript للتفاعل والتأثيرات المرئية.

وبعد التفكير لمدة 23 ثانية، قدم DeepSeek-R1-0528 لاحقًا جزءًا من كود HTML، والذي لا يزال من الممكن تشغيله بنقرة واحدة.

الاختبار 3: إنشاء لعبة صغيرة تتريس

أخيرًا، دعونا نجرب الكلمات الإنجليزية السريعة:

قم بإنشاء نسخة كاملة المواصفات من لعبة tetris مع رسومات وعناصر تحكم جميلة.
قم بإنشاء نسخة كاملة من Tetris برسومات وعناصر تحكم جميلة.

كما ترون، يعتقد DeepSeek-R1-052812 ثانيةثم يتم إعطاء قطعة من كود بايثون.

ستكون نتيجة التشغيل مثل:

على الرغم من أنها لعبة Tetris صغيرة بالفعل، إلا أن الإصدار التجريبي الأساسي يحتوي على أخطاء واضحة ويفتقر إلى أزرار التفاعل.

نظرًا لعدم رغبتنا في الاستسلام، حاولنا السماح لـ DeepSeek بمواصلة التحسن، لكن الأمر انقلب في المرة الثانية.

لا تزال اللعبة المحسنة لا تعمل بشكل صحيح(يمر دائما من خلال الجدران)ولا ينفذ الوظائف التفاعلية التي طلبناها صراحةً.

لتلخيص ذلك، انطلاقًا من القياس الفعلي البسيط أعلاه، فإن الإصدار الجديد من DeepSeek R1، كنموذج مفتوح المصدر، قد حقق بالفعل تقدمًا كبيرًا في قدرات البرمجة، ولكن لا يزال هناك بعض المجال للتحسين.

ولكن هناك شيء واحد يمكن قوله، وهو أنه من الواضح أنه أكثر ودية للمستخدمين المحليين العاديين.(مقارنة بنموذج كلود فهو مجاني وسهل الحصول عليه).

شيء آخر

بالإضافة إلى تحديث قائمة القدرة البرمجية، تم أيضًا اختيار الإصدار الجديد من DeepSeek R1أفضل نموذج نص مفتوح المصدر متاح حاليًا.

وبموجب ترخيص معهد ماساتشوستس للتكنولوجيا، فإنه يحتل المرتبة السادسة في القائمة الشاملة والأولى بين المصادر المفتوحة.

وفي مجال التقسيم، تحتل المرتبة الرابعة في مطالبات الصعوبة والخامسة في الرياضيات. إنه لاعب قادر جدًا في نموذج مفتوح المصدر.

ومع ذلك، فمن الجدير بالذكر أن نموذج كيمي الجديد قد فاز للتو بكود SOTA مفتوح المصدر ——

نموذج كود المصدر المفتوح بمعلمات 72B فقطكيمي ديف، محققًا SOTA مفتوح المصدر بدرجة 60.4% في اختبار SWE-bench الذي تم التحقق منه.

ليس مستوى برمجته أفضل من أحدث DeepSeek-R1 فحسب، بل إنه يعمل أيضًا بشكل جيد مقارنة بالنماذج مغلقة المصدر.

فماذا لو كنا لا نعرف قدراته الحقيقية (دوجي) ~