في 9 أبريل، أطلقت ByteDance Seeduplex، وهو نموذج صوتي مزدوج كامل أصلي واسع النطاق، والذي تم إطلاقه الآن بالكامل على تطبيق Doubao. يعتمد هذا النموذج على تصميم إطاري جديد لـ "الاستماع والتحدث في نفس الوقت". بالمقارنة مع الجيل السابق من نموذج الكلام نصف المزدوج من طرف إلى طرف، فإنه يحقق التفاعل في الوقت الحقيقي للاستماع والتحدث في وقت واحد، ويحسن إيقاع المحادثة والطبيعية والقدرة على مكافحة التدخل.

وفقًا للمقدمة الرسمية، تغلبت Seeduplex على التحديات الهندسية مثل التأخر والاستقرار في ظل التزامن العالي من خلال ابتكار بنية النموذج وتحسين التدريب. فيما يتعلق بمكافحة التداخل الدقيق، يتمتع النموذج بالقدرة على "الاستماع" بشكل مستمر وفهم البيئة الصوتية التي يتواجد فيها المستخدم وتجاهل ضوضاء الخلفية والمحادثات غير ذات الصلة بدقة. في السيناريوهات المعقدة، يتم تقليل معدل الرد الخاطئ ومعدل المقاطعة الخاطئة بنسبة 50% مقارنة بالنموذج أحادي الاتجاه. فيما يتعلق باتخاذ القرار الديناميكي، يجمع النموذج بين ميزات الكلام والدلالات لتحديد نية المستخدم بشكل شامل. يمكنه الاستماع بصبر عندما يكون المستخدم مترددًا والرد بسرعة بعد انتهاء المستخدم من التحدث. يتم تقليل نسبة المكالمات الوقائية بنسبة 40% مقارنة بالنموذج أحادي الاتجاه، كما يتم تحسين أداء اتخاذ القرار بنسبة 8%.

يُظهر التقييم متعدد الأبعاد أن Seeduplex أفضل بكثير من حل أحادي الاتجاه التقليدي ووظيفة الاتصال الصوتي للتطبيقات السائدة في الصناعة من حيث طلاقة المحادثة والإيقاع. كان هذا النموذج هو الأول من نوعه في الصناعة الذي حقق تنفيذًا واسع النطاق ويمكنه توفير تجربة تفاعل صوتي مستمرة عالية الجودة في الوقت الفعلي لمئات الملايين من المستخدمين.