في ديسمبر 2024، أطلقت Microsoft Phi-4، وهو نموذج لغة صغير (SLM) يتمتع بالأداء الأكثر تقدمًا في فئته. اليوم، تقوم Microsoft بتوسيع سلسلة Phi-4 بنموذجين جديدين: Phi-4-multimodal وPhi-4-mini. ويدعم نموذج Phi-4 الجديد متعدد الوسائط الكلام والرؤية والنص في وقت واحد، بينما يركز Phi-4-mini على المهام المستندة إلى النص.
Phi-4-multimodal هو نموذج معلمة 5.6B وأول نموذج لغة متعدد الوسائط من Microsoft يدمج الكلام والرؤية ومعالجة النص في بنية موحدة. كما هو موضح في الجدول أدناه، يحقق Phi-4-multimodal أداء أفضل عبر معايير متعددة مقارنة بالنماذج الحديثة متعددة الاتجاهات الحالية مثل Gemini2.0Flash وGemini2.0FlashLite من Google.
في المهام المتعلقة بالكلام، يتفوق Phi-4-multimodal على نماذج الكلام الاحترافية مثل WhisperV3 وSeamlessM4T-v2-Large في كل من التعرف التلقائي على الكلام (ASR) وترجمة الكلام (ST). تصدر النموذج تصنيفات HuggingFaceOpenASR بمعدل خطأ مذهل في الكلمات قدره 6.14%.
في المهام المتعلقة بالرؤية، كان أداء Phi-4-multimodal جيدًا في التفكير الرياضي والعلمي. هذا النموذج الجديد يمكن مقارنته بالنماذج الشائعة أو حتى تجاوزها مثل Gemini-2-Flash-lite-preview وClaude-3.5-Sonnet من حيث القدرات الشائعة متعددة الوسائط مثل فهم المستندات والرسوم البيانية والتعرف الضوئي على الحروف والتفكير العلمي البصري.
Phi-4-mini هو نموذج معلمة 3.8B يتفوق في الأداء على العديد من شهادات LLM الشائعة واسعة النطاق في المهام المستندة إلى النص بما في ذلك الاستدلال والرياضيات والترميز ومتابعة التعليمات واستدعاء الوظائف.
ولضمان أمان هذه النماذج الجديدة، عملت Microsoft مع خبراء أمان داخليين وخارجيين لإجراء الاختبار واعتماد الاستراتيجيات التي طورها فريق Microsoft AI Red Team (AIRT). يمكن نشر كلا الطرازين Phi-4-mini وPhi-4-multimodal على الجهاز بعد تحسينهما بشكل أكبر باستخدام ONNX Runtime لسهولة الاستخدام عبر الأنظمة الأساسية، مما يجعلها مناسبة لسيناريوهات التطبيقات منخفضة التكلفة ومنخفضة زمن الوصول.
يتوفر الآن كلا الطرازين Phi-4-multimodal وPhi-4-mini للمطورين في AzureAIFoundry وHuggingFace وNVIDIAAPICatalog. يمكن للمطورين مراجعة الوثائق الفنية لفهم الغرض من النموذج الموصى به وقيوده.
تمثل نماذج Phi-4 الجديدة تقدمًا كبيرًا في الذكاء الاصطناعي الفعال، مما يوفر إمكانات قوية متعددة الوسائط وقائمة على النصوص لمجموعة متنوعة من تطبيقات الذكاء الاصطناعي.