اليوم، أطلق Volcano Engine رسميًا نموذج Bean Bag 1.8 ونموذج إنشاء الصوت والفيديو Seedance 1.5 pro في مؤتمر FORCE Power. تظهر بيانات التقييم الموثوقة أن Doubao Big Model قد احتلت المرتبة الأولى في العالم من حيث الفهم متعدد الوسائط وقدرات التوليد وقدرات الوكيل.
وفقًا لتان داي، رئيس Volcano Engine، اعتبارًا من ديسمبر من هذا العام، تجاوز متوسط الاستخدام اليومي للرمز المميز لـ Doubao Big Model 50 تريليون، بزيادة أكثر من 10 مرات مقارنة بنفس الفترة من العام الماضي؛ حاليًا، قام أكثر من 100 عميل من الشركات بتجميع استخدام رمزي يزيد عن 1 تريليون.
باعتباره أحدث طراز رئيسي لعائلة Doubao، تم تحسين طراز Doubao الكبير 1.8 (Doubao-Seed-1.8) لسيناريوهات الوكيل متعدد الوسائط. تم تحسين قدرة استدعاء الأداة، والقدرة على اتباع التعليمات المعقدة، وقدرة وكيل نظام التشغيل، مما يحسن مستوى التخطيط والتنفيذ للنموذج عند التعامل مع المهام المعقدة.
فيما يتعلق بالفهم البصري، تضاعف عدد إطارات فهم الفيديو الفردي لـ Doubao 1.8 من 640 إطارًا إلى 1280 إطارًا. يدعم النموذج فهم مقاطع الفيديو الطويلة جدًا بمعدلات إطارات منخفضة، ويمكنه استدعاء الأدوات لفهم المقاطع الرئيسية بمعدلات إطارات عالية. يمكن استخدام هذه الإمكانية على نطاق واسع في التعليم عبر الإنترنت وفحص جودة المنتج والسيناريوهات الأخرى.
استجابة للطلب المتزايد على إنشاء الفيديو، أطلق Volcano Engine نموذج إنشاء الصوت والفيديو Seedance 1.5 pro. لا يحتوي هذا النموذج على توتر سردي على مستوى الأفلام والتلفزيون فحسب، بل يمكنه التقاط تفاصيل الحركة بدقة وتقديم مشاعر الشخصية بدقة، ولكنه حقق أيضًا تقدمًا كبيرًا في تكنولوجيا مزامنة الصوت والفيديو.
يعتمد Seedance 1.5 pro بنية مبتكرة لتوليد الصوت والفيديو المشترك، ويدعم الأصوات البيئية وموسيقى الخلفية والغناء والعناصر الأخرى، ويحقق إخراجًا متزامنًا للصوت والفيديو على مستوى المللي ثانية. فيما يتعلق بمعالجة الحوار، يدعم النموذج الحوار متعدد الأشخاص واللغات، مع محاذاة دقيقة للفم، ويغطي اللهجات الصينية (مثل لهجة سيتشوان، والكانتونية، وما إلى ذلك)، والإنجليزية ولغات الأقليات، مما يحسن بشكل كبير الواقعية وإمكانات إنشاء محتوى الفيديو على المستوى العالمي.
من أجل تقليل حد الإنشاء والتكلفة بشكل أكبر، ستطلق سلسلة Seedance قريبًا وظيفة "عينة المسودة". يمكن للمبدعين أولاً إنشاء عينة منخفضة الدقة للمعاينة، وتكون عناصرها الرئيسية متسقة إلى حد كبير مع الفيلم النهائي، حقًا "المعاينة هي ما تحصل عليه". تشير البيانات إلى أن هذه الميزة يمكن أن تساعد منشئي المحتوى على تحسين الكفاءة الإجمالية بنسبة 65% وتقليل تكاليف الإنشاء غير الفعالة بنسبة 60%.
حاليًا، يمكن للمستخدمين الفرديين تجربة النموذج على Doubao وJimeng AI ومنصات أخرى؛ يمكن لمستخدمي المؤسسات الوصول إلى خدمة نموذج Seedance 1.5 pro من خلال Volcano Engine API بدءًا من 23 ديسمبر.
وأشار تان داي إلى أن البنية التقليدية لتكنولوجيا المعلومات لم تعد قادرة على تلبية احتياجات عصر الوكلاء. تتشكل البنية السحابية الأصلية للذكاء الاصطناعي التي تركز على النموذج ويتم إعادة بنائها حول تطوير الوكلاء وتشغيلهم.
على مستوى تطوير الوكيل، قام Volcano Engine بترقية شاملة لمنصة AgentKit للذكاء الاصطناعي على مستوى المؤسسة. تغطي المنصة دورة حياة الوكيل بأكملها بدءًا من التطوير والنشر وحتى الإدارة والتحكم، وتهدف إلى حل التحديات الأساسية التي تواجهها المؤسسات في تنفيذ الوكيل مثل إدارة حقوق الهوية واليقين النموذجي وتكامل النظام.
بالإضافة إلى ذلك، من أجل خفض عتبة الاستخدام المؤسسي، أطلقت Volcano Engine أول "خطة توفير الذكاء الاصطناعي" في الصناعة. تغطي هذه الخطة جميع المنتجات كبيرة الحجم التي تتطلب تسعير الدفع أولاً بأول، وتساعد الشركات على توفير ما يصل إلى 47% من التكاليف من خلال الخصومات المتدرجة.
