أصدرت Google مؤخرًا نموذجًا متعدد الوسائط لإصدار Gemma 4 12B وفتحته المصدر. الهدف التطويري لهذا النموذج هو السماح للأجهزة المخصصة للمستهلكين بتشغيل نماذج الذكاء الاصطناعي محليًا. وفقًا لاختبارات Google، يمكن تشغيل النموذج على أجهزة الكمبيوتر المحمولة وأجهزة الكمبيوتر المكتبية المزودة بذاكرة/ذاكرة فيديو بسعة 16 جيجابايت، وذلك بفضل المعلمات صغيرة الحجم 12B، لكن النموذج ذكي مثل طراز إصدار Gemma 26B.

تشمل مزايا النموذج ما يلي:

  • بنية موحدة جديدة: لا حاجة لأجهزة تشفير متعددة الوسائط، ودعم مباشر لإدخال النصوص والصور والفيديو والصوت.

  • إمكانات الاستدلال المتقدمة: الأداء المعياري قريب من نموذج الهندسة المعمارية الخبيرة الهجين إصدار Gemma 26B، والذي يمكن أن يوفر استدلالًا متعدد الخطوات محليًا.

  • متطلبات ذاكرة منخفضة: مطلوب فقط 16 جيجابايت من الذاكرة أو ذاكرة الفيديو للتشغيل محليًا، على الرغم من أن المزيد من الذاكرة سيوفر أداء أفضل.

  • إصدار النموذج مفتوح المصدر: يتم إصدار النموذج بموجب ترخيص Apache 2.0، كما توفر Google والمجتمع دعمًا كاملاً للنظام البيئي للمطورين.

  • محدد تنبؤي: تم تجهيز إصدار Gemma 4 12B بمجموعة متنوعة من محددات الرموز التنبؤية، والتي يمكنها تقليل التأخير بشكل فعال.

المزيد عن النموذج:

إن ذكاء Gemma 4 12B في اختبار معيار التعليقات التوضيحية قريب من نموذج الهندسة الهجينة 26B MoE الذي أصدرته Google مسبقًا كمصدر مفتوح. ومع ذلك، فإن الإصدار 12B لديه متطلبات ذاكرة منخفضة للغاية ويمكن تشغيله مباشرة على أجهزة الكمبيوتر المحمولة وأجهزة الكمبيوتر المكتبية المخصصة للمستهلكين والمجهزة بذاكرة أو ذاكرة فيديو بسعة 16 جيجابايت، مما يسمح للمستخدمين بتجربة تفاعل قوي متعدد الوسائط وذكي محليًا.

تشمل المزايا البارزة لهذا النموذج أيضًا تبسيط معالجة إدخال الصور والفيديو والصوت. تعتمد النماذج التقليدية متعددة الوسائط عادةً على برامج تشفير مستقلة لتحويل الصور والصوت، ثم تمرير التمثيل المحول إلى نموذج اللغة. نظرًا لأن أجهزة التشفير المنفصلة هذه ستزيد من زمن الوصول واستخدام الذاكرة، تستخدم Google بنية أقل تشفيرًا لتدريب نموذج Gemma 4 12B، بحيث يتمكن النموذج من دمج الإدخال الصوتي والمرئي مباشرة.

الرؤية: استخدم وحدة تضمين خفيفة الوزن لتحل محل برنامج التشفير المرئي Gemma 4. تحتوي هذه الوحدة فقط على عمليات ضرب مصفوفة واحدة وتضمين الموضع والتطبيع، مما يسمح للشبكة الأساسية للنموذج بتولي المعالجة المرئية مباشرة.

الصوت: قامت Google بإزالة برنامج تشفير الصوت بالكامل، حيث قامت بإسقاط الإشارة الصوتية الأولية في نفس مساحة الأبعاد مثل ترميز النص.

حاول تنزيل النموذج:

حاليًا، تم توفير إصدار Gemma 4 12B على منصات متعددة. يمكن للمطورين المهتمين تجربة ذلك مباشرة في Ollama، وما إلى ذلك، أو الذهاب إلى HuggingFace أو Kaggle لتنزيل ملف وزن النموذج. يمكن للمطورين أيضًا استخدام Unsloth للضبط الدقيق الفعال لتخصيص الإصدار الذي يحتاجون إليه.

أولاما: https://ollama.com/library/gemma4

معانقة الوجه: https://huggingface.co/collections/google/gemma-4

أونسلوث: https://unsloth.ai/docs/models/gemma-4