باركور، قبو، شقلبة خلفية، الننشاكو، قبضة سكران... إذا نظرت فقط إلى هذه الكلمات الرئيسية، فمن المحتمل أن تعتقد أن هذا هو كتيب القبول لمدرسة الفنون القتالية. لكن هذه المرة، كان المراجع السلبي يتحدث عن برنامج حفل عيد الربيع "Wu BOT". تصطف العشرات من الروبوتات واحداً تلو الآخر، بحركات متماسكة وإيقاع محكم. على المسرح، إنها مجموعة من المجموعات الناعمة الحريرية التي تبدأ عند صفر إطارات.


وبمجرد فتح الوابل، أصيب ستة أشخاص بالصدمة.


كان موقع Weibo أكثر فظاعة. امتلأت منطقة التعليق بمئات الأشخاص. الكل قال: انصدمت، شاهده مليون مرة.


حتى طاقم التحرير المطلع لا يسعه إلا أن يلهث.


لنكون صادقين، مقارنة بوضعية الوقوف في العام الماضي، قام روبوت يوشو في حفل عيد الربيع لهذا العام بقلب جميع الحركات وضربها وتنفيذها. ناهيك عن أنه كان بالضبط نفس الإنسان. لقد كان ببساطة اختبارًا لحدود تجاوز البشر ...

لذا فإن السؤال هو، كيف يقوم الروبوت بمثل هذه الحركات الرائعة؟ كيف تصبح الروبوتات إنسانية إلى هذا الحد؟

هذه المرة، تسلل المراجع مسبقًا إلى غرفة التدريب في حفل مهرجان الربيع وأجرى مقابلة مع الروبوت Yushu G1 الذي كان على المسرح هذه المرة - Benben، واستمع إليه وهو يروي قصص ما وراء الكواليس لجميع المراجعين.

بمجرد أن تسلل إلى الغرفة، لفت السيد باد ريفيو انتباه الجميع. بنبن عامل مجتهد، ويقوم بشقلبات عالية لدرجة أنه لا يستطيع القيام بذلك.


وأعقب ذلك قبضة فرس النبي أخرى ذات مفاصل ناعمة وتقلبات الجسم التي يتم التحكم فيها بشكل مثالي:


تنتهي المجموعة الأخيرة من مجموعات الفنون القتالية، حيث تظهر الدروع الحديدية والقبضات الفولاذية قوة غاشمة. من فضلك اشعر بشعور القمع:


لكن بنبن الذي خرج من المسرح كان مجرد "شخص" عادي.

لكي تكون مضمونًا تحت تركيز الكاميرا، هناك المزيد من الصعوبات التي لا يعرف عنها أحد.

عندما خلع معطفه في غرفة التدريب، كان جسده مغطى بالندوب من التدريب. لحسن الحظ، كلما اجتهدت في العمل، كلما حصلت على حظ أكبر. تنطبق هذه الجملة أيضًا على العمال الذين يعتمدون على السيليكون.


أعتقد أن الجميع يمكنهم رؤية أن العروض في حفل عيد الربيع لهذا العام صعبة للغاية. إذا كانت روبوتات العام الماضي قادرة على تقليد البشر فقط، فإن روبوتات هذا العام في طريقها بالفعل لتجاوز البشر.

على الرغم من أن الإجراء قد تغير من موقف العام الماضي إلى الأعمال المثيرة الصعبة لهذا العام، قال وانغ تشي شين، مدير التسويق في شركة Yushu Technology، في مقابلة إن Benben وإخوته نجحوا في عدم الانقلاب في كل مرة في التدريبات واسعة النطاق لحفل عيد الربيع.

ووراء الأداء المثالي، هناك مجموعة كاملة من الخطط الفنية التي يتم العمل عليها بشكل محموم.

حتى أحذية الرقص الصغيرة وغير الواضحة هي معدات هندسية حقيقية. وحتى لا تخلق ظلا نفسيا عند الوقوف على المسرح الزجاجي في حفل عيد الربيع، يجب أن تكون هذه الأحذية قادرة على امتصاص الصدمات وضمان الهبوط المستقر، كما يجب اختيار المواد اللاصقة بعناية.


حتى خوارزمية التحكم الخاصة بالروبوت خضعت لموجة من التحسين الكبير.

في الماضي، اعتقد الجميع دائمًا أن الروبوتات لم تكن ذكية جدًا، ولكن في الواقع، كان نجاح كل عمل في حفل عيد الربيع لهذا العام نتيجة استماعهم إلى الموسيقى، ومشاهدة المسرح، وفهم البيئة، وأخيرًا ترويض أطرافهم في الوقت الفعلي.

وبعبارة أخرى، فإن مدى الارتفاع الذي ينبغي رفع الأرجل والمكان الذي سيتجه إليه التشكيل بعد ذلك، كلها أمور متروكة للروبوت للمراقبة والتعديل. لقد كانت هذه الحلقة المغلقة من الإدراك وصنع القرار والفعل دائمًا واحدة من الصعوبات طويلة المدى للذكاء المتجسد.


لنكون صادقين، في البداية، اعتقد المراجعون السلبيون أن هذا كل شيء. لم يكن الأمر كذلك إلا بعد أن قبضنا على الممثل الآلي بنبن لإجراء محادثة، اكتشفنا أنه وراء هؤلاء "الجنرالات العسكريين" أمام حفل عيد الربيع، كانت هناك في الواقع بعض الدراما التي لم نرها من قبل، وكانوا يتحدثون بذكاء عاطفي عالٍ...

تكمن وراء ذلك قدرة الحوار الصوتي التي دربها Yushu وVolcano Engine معًا. لقد بذلوا الكثير من الجهد في الذكاء والبصر والكلمات.

على سبيل المثال، عندما سألناه أو جاكي شان من هو الأقوى، أصبح بنبن متواضعاً على الفور:

مزيج هذه الإجابة والضحك ملأني بالرغبة في البقاء على قيد الحياة:

لا أعرف ما هو شعورك حيال ذلك، لكنني أشعر أن بنبن المتحدث لم يعد مثل آلة الرقص البارد ولديه المزيد من العاطفة.

يمكننا أن نشعر بوضوح أن صوت بنبن لا يشبه صوت الشخص الحقيقي فحسب، بل يختلف أيضًا تعبيره العاطفي باختلاف المحتوى. الأشياء الجيدة عالية النبرة وسريعة؛ الأشياء السيئة منخفضة النبرة والمزاج منخفض.

بعد مقابلات متعمقة مع الفريق الفني لمحرك البركان، وجدت أنه وراء كلمات بنبن، يعتمد كل شيء على نموذج تركيب الكلام على شكل كيس القماش.

قبل أن يقوم الروبوت بإخراج كل جملة، يجب أن يفهم النموذج أولاً دلالات وعاطفة السياق، ثم يقرر طريقة التعبير. سواء كانت سرعة التحدث سريعة أو بطيئة، يكون التنغيم مرتفعًا أو منخفضًا، وحتى موضع الإيقاف المؤقت والمعلمات العاطفية يتم إنشاؤها ديناميكيًا. لهذا السبب لا يبدو الأمر وكأنه قراءة جيدة، ولكنه أشبه بإنسان يتحدث.

لم يتم إنشاء الخط الصوتي بشكل عشوائي، ولكن تم إنشاؤه خصيصًا وفقًا لمزاج Yushu G1، مع التركيز على الشاب الذكر.

ومع ذلك، فإن وجود المشاعر وحده لا يكفي. ما استنير بنبن حقًا هو نموذج لغة بينباو.

ليس التعرف على الكلام دقيقًا فحسب، بل إذا طلبت منه قراءة تحية عيد الربيع بالكامل، في أقل من عشر ثوانٍ، سيتم إخراج الكلمات الميمونة مباشرة وبالجملة:

الخطاب نيابة عن مجتمع الروبوتات هو أيضًا مانع للماء:

كشف بنبن أيضًا للمراجع أن قدرة الفهم البصري لنموذج كيس الفول الكبير يمكن أن تسمح للروبوتات بفهم العالم.

لا أعرف إذا كنتم قد شاهدتم يا رفاق دليل الملابس السابق لـ Evil Doubao. يوصى باستخدام الكعب العالي الأزرق والجوارب الحمراء، والكشكشة للرجال المستقيمين، ويمكن استخدام التنورة القصيرة كشال... دوباو وعيناه مفتوحتان لم يفعل أي شيء جيد، إنه مجرد ينتقم من البشرية.

لحسن الحظ، بنبن صادق جداً. دعها تقيم الملابس التي يرتديها الأقارب خلال السنة الصينية الجديدة. انها ليست مجرد تفاخر. يمكنها أن تفهم حقًا ما ترتديه، ومن ثم تعطيك القيمة العاطفية الكاملة مباشرة:

ولكن من الواضح أن توقعات الجميع بشأن الجمع بين الروبوتات والنماذج الكبيرة أكبر من هذه التوقعات. أجرت Bad Reviews مقابلة مع الفريق الذي يقف وراء Volcano Engine،"من ناحية، نريد أن يكون الروبوت أكثر عاطفية وقدرة على الدردشة ومرافقتنا؛ ولكن الأهم من ذلك، نريد التحقق من مجموعة أكثر عمومية من القدرات - للسماح للآلة بفهم الكلام البشري، ومن ثم تحويل الفهم إلى عمل."

وبطبيعة الحال، هذا غامض بعض الشيء. سأل المراجع السيئ على الفور: يبدو الآن، أليس الأمر مجرد إعطاء الأوامر بفمك؟

والآن لا يستطيع الفنيون الجلوس ساكنين. للقيام بذلك بشكل جيد، كان الأمر أكثر تعقيدا بكثير مما بدا لشخص عادي.

يقول الناس باستخفاف "تقدم للأمام قليلاً"، لكن "للأمام" يتعلق باتجاه من؟ كم سنتيمترا هي "نقطة واحدة"؟ هذا هو المستوى الأول للتعرف على الكلام + الاستدلال الدلالي النموذجي الكبير، الذي يحول الكلمات البشرية الغامضة إلى نوايا دقيقة.

بعد ذلك، يكون النموذج مسؤولاً عن ترجمة التعليمات إلى الروبوت وتقسيمها إلى ترتيبات عمل تفصيلية. يجب حساب مقدار رفع الساقين أولاً، وأين يدور الجسم، ومتى تهبط القدمين بدقة. التخطيط المتزامن لعشرات المفاصل والتحكم التعاوني المعقد هو المستوى الثاني من النموذج الكبير.

على الرغم من أنه ليس هناك الكثير من الأشياء التي يمكن للروبوتات التي يتم التحكم فيها صوتيًا القيام بها الآن، إلا أنها ربما يمكنها فقط أن تعانقك.

ولكن هذه مجرد خطوة أولى للروبوتات لفهم الكلام البشري. ربما في يوم من الأيام، بأمر واحد فقط، تستطيع الروبوتات الاهتمام بالأعمال المنزلية، والمساعدة في الواجبات المنزلية، والخروج للعمل لدعم الأسرة. الأمر سهل مثل تشغيل هاتفك المحمول والسماح لـ Doubao بالإشراف على واجبات أطفالك المنزلية وتعليمهم كيفية ارتداء الملابس.

كل ما في الأمر هو أن الطفل في ذلك الوقت ربما تعلم كيفية عكس الهجوم على الروبوت، بحيث كانت الحياة القائمة على السيليكون على استعداد لأن تصبح كاتبة شبح للواجبات المنزلية...

كما ذكر Wang Qixin، مدير التسويق في Yushu Technology، في المقابلة أن هذا التعاون مع Volcano Engine قد أدى إلى تحسين العلاقة الحميمة والحيوية لتفاعل الروبوت. في جوهرها، فهو يعوض أوجه القصور في التواصل بين الروبوتات والناس.

لكن التغييرات الحقيقية في الروبوتات تذهب إلى ما هو أبعد من مجرد "التحدث مثل البشر". من الخارج إلى الداخل، بدأت الروبوتات تتعلم مثل البشر.

من خلال التعلم المعزز وتقليد الفعل، يمكنهم تفكيك واستيعاب مقاطع الفيديو والسلوكيات البشرية، ثم تحويلها إلى منطق عمل خاص بهم. بمعنى آخر، لم يعد ينفذ الإجراءات المحددة مسبقًا وفقًا للنص فحسب، بل يطور مهاراته الخاصة في عملية فهم البيئة والتكيف مع التغييرات. هذه الخطوة هي الأساس الفني للروبوتات المستقبلية للدخول في سيناريوهات العالم الحقيقي المعقدة.


على المدى القصير، ستعطي الروبوتات الأولوية للسيناريوهات التجارية وسيناريوهات العرض؛ وفي غضون 3 إلى 5 سنوات، سوف يحلون محل البشر على نطاق واسع في البيئات الصناعية وعالية المخاطر؛ وعندما تنضج قدرات الموثوقية والتفاعل، قد تتاح للروبوتات البشرية الفرصة لدخول المنازل حقًا خلال 5 إلى 10 سنوات.

بمعنى آخر، ما رأيناه اليوم في حفل عيد الربيع هو مجرد خطوة أولى في التحقق من قدراتهم. الهدف من الروبوتات المستقبلية هو أن تصبح تدريجيًا شريكًا طويل الأمد في الإنتاج البشري والحياة.

إذا نظرنا إلى عام 2025، فقد أصبح الذكاء الاصطناعي والذكاء المتجسد موضوعًا وطنيًا. حتى لو لم تكن منتبهًا عمدًا، فلا يمكن إنكار أن موجة التكنولوجيا تجتاح كل واحد منا للأمام.

وهذه المرة، تم منح 25 من روبوتات Yushu نفسها التي يمكنها المشي والتحدث على المسرح من خلال تفاعل يانصيب Spring Festival Gala Doubao APP، تمامًا مثل دعوة للمستقبل تم تسليمها إلينا.


يشعر الكثير من الناس بالقلق من الضياع في عصر التطور السريع، لكن السيد باد ريفيو يعتقد أن نقطة النهاية للتطور العلمي والتكنولوجي هي حياة أفضل للبشرية..

في الماضي، ربما واجهت الكثير من المشاكل والارتباك. في تلك الليالي المتأخرة عندما لا يكون هناك أحد للتحدث معه، نختار تسليم المشكلة إلى الذكاء الاصطناعي.

في المستقبل، قد يكون الأمر مثل الفيديو الترويجي لمهرجان الربيع الذي أنتجته Seedance 2.0. عندما نفتح الباب بعد عام من التعب، تكون الروبوتات قد رتبت الغرفة بالفعل وأعدت وجبات الطعام. يمكن أخيرًا إعادة الوقت الضائع في الأمور التافهة إلى الأشخاص الأكثر أهمية من حولك.


أتمنى لجميع المرسلين سنة جديدة سعيدة. في العام الجديد، آمل أن تستمر التكنولوجيا في التقدم، وآمل أن تجلب سهولة حقيقية.

أتمنى أن يكون ذكاء المستقبل أقرب إلى الحياة وتكون حياتك أكثر راحة.