أعلنت جوجل في حدث "صنع على يوتيوب" هذا الشهر أن تقنية الدبلجة التلقائية على يوتيوب قد أدخلت ترقية جديدة: تقديم وظيفة مزامنة الشفاه بالذكاء الاصطناعي، والتي تهدف إلى حل المشكلة طويلة الأمد المتمثلة في "عدم المزامنة بين الصوت والصورة" في محتوى الفيديو المترجم آليًا. سيتم طرح الميزة أولاً بـ 20 لغة، بما في ذلك الإنجليزية والألمانية والفرنسية والإسبانية، مع المزيد من اللغات في الأشهر المقبلة.

يُذكر أن الدبلجة التلقائية والترجمة التلقائية على YouTube كانت مثيرة للجدل فيما يتعلق بإعادة إنتاج عناوين الفيديو والمسارات الصوتية تلقائيًا. يأمل العديد من المستخدمين أن يكون لديهم خيار موحد لإيقاف هذه الترجمة والدبلجة التلقائية. أبلغ مستخدمون متعددو اللغات ومبدعو Bilibili أن جودة الترجمات التي يتم إنشاؤها بواسطة الذكاء الاصطناعي غير متساوية مقارنة بالترجمات البشرية. حاليًا، لا يوفر YouTube وظيفة إيقاف الدبلجة عالميًا. يحتاج المستخدمون إلى ضبط المسار الصوتي يدويًا على أساس كل فيديو على حدة. وقد دفع هذا أيضًا بعض المطورين إلى إطلاق المكونات الإضافية للمتصفح مثل "YouTube Anti-Translate" لمنع الترجمة الآلية وطبقات الدبلجة على وجه التحديد.

الإنجاز الرئيسي لهذا التحديث هو أن وظيفة مزامنة الشفاه المدعمة بالذكاء الاصطناعي يمكنها استخدام تقنية الذكاء الاصطناعي لمحاذاة المسار الصوتي الذي تم إنشاؤه تلقائيًا بشكل مثالي مع شكل فم الشخصيات في الفيديو، مما يحسن بشكل كبير الشكل والمظهر وتحقيق تجربة فيديو أكثر سلاسة وطبيعية. يمكن لمنشئي المحتوى اختيار تشغيل وظيفة الدبلجة لمزامنة الشفاه من خلال YouTube Studio. الإصدار التجريبي الأول مفتوح لأعضاء برنامج شركاء YouTube، ومن المتوقع أن تقوم Google بتوسيع نطاقه ليشمل جميع مقاطع الفيديو في المستقبل.

فيما يتعلق بالدبلجة متعددة اللغات، يعتمد موقع YouTube على نماذج الذكاء الاصطناعي المطورة ذاتيًا (بما في ذلك Gemini وAloud) لإنشاء مسارات صوتية متعددة اللغات، والتي لا تستعيد العاطفة ونغمة صوت المتحدث الأصلي فحسب، بل تفصل أيضًا أصوات الخلفية والأصوات البشرية. وفقًا لجوجل، بعد أن قامت بعض القنوات بتمكين الدبلجة المتعددة اللغات، تضاعف عدد المشاهدين غير الأصليين ثلاث مرات، مما يدل على إمكانات نمو قوية.

على الرغم من أن تقنية الدبلجة التلقائية ومزامنة الشفاه التي تعتمد على الذكاء الاصطناعي تلعب دورًا مهمًا في توسيع جمهور المبدعين وعائدات الإعلانات، إلا أنه لا يزال هناك الكثير من الجدل حول ما إذا كانت ستؤثر على صحة المحتوى الأصلي وتجربة الجمهور. ويعتقد المؤيدون أن هذه الخطوة تسهل مشاهدة الجمهور العالمي وتعزز تأثير المحتوى؛ بينما يخشى النقاد من أن تؤدي الأتمتة إلى الإضرار بالأسلوب الفريد للعمل الأصلي. ما إذا كانت مزامنة الشفاه باستخدام الذكاء الاصطناعي قادرة على سد الفجوة بين المثالية والواقع، فإن الصناعة لا تزال تراقب تأثيرها.