في الآونة الأخيرة، قام مضيف UP في Bilibili بمشاركة مقطع فيديو "على الرغم من أن Zhang Heihei"يُظهر نتائج اختبار الإصدار الكامل من Apple M3Ultra الذي يقوم بتشغيل نموذج DeepSeekR1 الذي يحتوي على 671 مليار معلمة. وسرعتها أسرع من ثماني بطاقات رسومية A100، لكن التكلفة أقل بكثير.
يتطلب تشغيل نموذج DeepSeekR1 الذي يحتوي على 671 مليار معلمة عادةً خادمًا احترافيًا مزودًا بـ 6-8 A100. يتجاوز السعر الإجمالي بسهولة مليون يوان، وهو أمر يكاد يكون من المستحيل على المستخدمين العاديين تحمله.
ومع ذلك، فإن الإصدار الكامل من M3Ultra لا يتطلب سوى MacStudio لتحقيق أداء مماثل، وهو فعال للغاية من حيث التكلفة.
تظهر نتائج الاختبار أنه عند تشغيل نموذج DeepSeekR1، يكون أداء ثماني بطاقات رسومية A100 هو 16.41Tokens/s، بينما يصل الإصدار الكامل من M3Ultra إلى 15.78Tokens/s بتنسيق GGUF.
وبعد التحول إلى تنسيق MLX الذي يمكنه الاستفادة من الذاكرة الموحدة، زادت السرعة إلى 19.17Tokens/s، متجاوزة 8 بطاقات رسومية A100. بالإضافة إلى ذلك، عندما قامت M3Ultra بتشغيل نموذج معلمة DeepSeekV3671 مليار، وصلت السرعة أيضًا إلى 19.66Tokens/s.
ومع ذلك، هذا لا يعني أن M3Ultra يمكنه تجاوز A100 في جميع السيناريوهات. عندما يقوم مستخدم واحد بإجراء استنتاج نموذجي واحد، فإنه يعتمد بشكل أساسي على النطاق الترددي للذاكرة وسعتها، ولا يمكنه تحقيق إمكانات A100 بالكامل. في الاستدلال متعدد المستخدمين وسيناريوهات تدريب النماذج الكبيرة، لا يمكن لـ M3Ultra تمامًا المقارنة مع A100.
بالإضافة إلى ذلك، كان أداء M3Ultra جيدًا في اختبار سرعة الاستدلال لنموذج اللغة الكبير،سواء كان طراز Llama3.170B أو Gemma227B أو Qwen2.514B، فإن سرعته أفضل بكثير من شرائح سلسلة M الأخرى. بالمقارنة مع M2Ultra، تمت زيادة السرعة بنسبة 13% و34% و18% على التوالي.
تم تجهيز النسخة الكاملة من M3Ultra التي تم اختبارها هذه المرة بذاكرة موحدة بسعة 512 جيجابايت، والسعر الإجمالي 74249 يوان. بالنسبة لمعظم المستخدمين، إذا لم يكونوا بحاجة إلى تشغيل مثل هذا النموذج واسع النطاق، فيمكن تقليل سعة الذاكرة الموحدة بشكل مناسب لتوفير التكاليف.