في 27 أكتوبر، أعلنت شركة Meituan رسميًا أن فريق Meituan LongCat أطلق رسميًا نموذج توليد الفيديو LongCat-Video. يعتمد هذا النموذج على بنية Diffusion Transformer ويمكنه دعم ثلاث مهام أساسية لفيديو Wensheng وفيديو Tusheng واستمرار الفيديو، ويدعي أنه وصل إلى المستوى المتقدم بين النماذج مفتوحة المصدر.

وفقًا للتقارير، يمكن لـ LongCat-Video إنشاء فيديو عالي الدقة بدقة 720 بكسل ومعدل 30 إطارًا. وتتمثل ميزته البارزة في أنه يمكنه إنشاء محتوى فيديو متماسك يصل إلى 5 دقائق. من خلال آليات مثل التدريب المسبق لاستمرار الفيديو وحظر الانتباه المتناثر، يهدف النموذج إلى حل المشكلات الشائعة مثل فواصل الصورة وتدهور الجودة في إنشاء مقاطع فيديو طويلة، مع الحفاظ على الاتساق الزمني وعقلانية الحركة.
من حيث الكفاءة، يستخدم النموذج تقنيات مثل التوليد على مرحلتين، وكتلة الاهتمام المتناثر، والتقطير النموذجي. ووفقا للمسؤولين، يتم زيادة سرعة الاستدلال بأكثر من 10 مرات. يبلغ عدد معلمات النموذج 13.6 مليارًا، وقد أظهر محاذاة قوية للنص وتماسكًا للحركة في الاختبارات العامة مثل VBench.
كمحاولة تقنية لبناء "نموذج عالمي"، يمكن تطبيق LongCat-Video على السيناريوهات التي تتطلب نمذجة طويلة المدى مثل محاكاة القيادة الذاتية والذكاء المتجسد في المستقبل. يمثل إصدار هذا النموذج خطوة مهمة لشركة Meituan في مجالات توليد الفيديو ومحاكاة العالم المادي.