أعلنت شركة Google عن إطلاق نموذج جديد لتحويل النص إلى كلام Gemini‑TTS في سلسلة Gemini 3.1، والذي تم وصفه رسميًا بأنه "الحل الأكثر تعبيرًا لتحويل النص إلى كلام حتى الآن". يمكن للنموذج الجديد توليد كلام طبيعي عالي الدقة مع السماح للمطورين بالتحكم في العاطفة والإيقاع وأسلوب الكلام من خلال المطالبات، مثل ضبط النغمة بدقة والتوقف المؤقت والتغييرات العاطفية في السرد أو الحوار.

فيما يتعلق بالدعم متعدد اللغات، يغطي Gemini-TTS حوالي 70 لغة، بما في ذلك الصينية (الماندرين)، والإنجليزية، والإسبانية، والألمانية، واليابانية وغيرها من اللغات السائدة. يمكن للنموذج اكتشاف لغة نص الإدخال تلقائيًا وإنشاء الكلام المقابل دون تحديد نوع اللغة يدويًا. تتيح هذه الإمكانية للمطورين والمؤسسات استخدام مجموعة موحدة من واجهات برمجة التطبيقات لتوفير محتوى صوتي متعدد اللغات للمستخدمين العالميين في سيناريوهات مثل الكتب الصوتية والبودكاست والمساعدين الصوتيين وروبوتات خدمة العملاء والتطبيقات التعليمية.

أكدت Google أيضًا على أن Gemini‑TTS تتعاون مع نماذج صوتية أخرى في سلسلة Gemini 3.1 (مثل Gemini 3.1 Flash Live) لتعزيز قدرات "التجربة الصوتية في الوقت الفعلي". في الحوار في الوقت الفعلي والترجمة الصوتية والتفاعل متعدد الوسائط، يمكن للنظام الحفاظ على زمن وصول منخفض مع التحكم بدقة في إخراج الصوت من خلال المطالبات النصية والعلامات الصوتية، مما يسمح لوكلاء الذكاء الاصطناعي بأن يكونوا أقرب إلى التفاعل الصوتي البشري الطبيعي في سيناريوهات مثل المكالمات الهاتفية والاجتماعات والملاحة.