يقول الباحثون في جامعة واشنطن إنهم يستطيعون الآن إسكات أجزاء مختلفة من غرفة صاخبة، أو عزل محادثة في بيئة مزدحمة، وذلك بفضل سرب من الروبوتات الصوتية الصغيرة التي يمكنها تحديد موقع مصادر الصوت المتحركة المتعددة وتحديدها وتتبعها بشكل مستقل.
يمكننا نحن البشر تحديد مصادر الصوت وأعيننا مغلقة، وذلك بفضل مجموعة الميكروفونات المزدوجة الموزعة قليلاً والدرع الصوتي الذي توفره آذاننا. ولكن عندما تصبح البيئة الصوتية معقدة، يمكن أن تصبح الأمور مربكة للغاية - وهو أمر يتعارض مع ميلنا المميز للبحث عن أماكن صاخبة ومزدحمة وعالية الطاقة (مثل مقهى صباح يوم الأحد) ثم محاولة إجراء محادثة فيها.
في هذه المساحات الصوتية الأكثر ازدحامًا، الطريقة الوحيدة لعزل مصادر الصوت الفردية وكتم صوت الآخرين هي نشر مصفوفات ميكروفون أكبر ومن ثم معالجة جميع التدفقات الصوتية معًا لإنشاء خريطة للمساحة التي تحدد موقع كل صوت وتقيس الفروق الزمنية الصغيرة في الوقت الذي يستغرقه الصوت للانتقال عبر الهواء والوصول إلى كل ميكروفون. يمكنك بعد ذلك استخدام خوارزميات التعلم العميق المراوغة لإعادة معالجة جميع التدفقات الصوتية، وإنشاء تدفقات صوتية مستقلة لكل مصدر صوت وإزالة جميع الضوضاء من مصادر الصوت الأخرى.
الفكرة في حد ذاتها ليست جديدة، لكن الباحثين في جامعة واشنطن وضعوا الآن فكرة جديدة على هذا المفهوم، باستخدام سرب من سبعة روبوتات صغيرة ذات ميكروفونات ذات عجلات، كل منها بحجم كمأة الشوكولاتة، والتي تنتشر بشكل مستقل من محطة الشحن وإنشاء مجموعة ذاتية التحسين ضمن المساحة المتاحة.
تستخدم الروبوتات ميكروفونات ومكبرات صوت مدمجة للتنقل على سطح الطاولة عبر السونار، وتجنب العوائق والانتشار على أوسع نطاق ممكن لتعظيم الفارق الزمني بين الميكروفونات. لسوء الحظ، هذا يعني أنه يجب تحريكها واحدة تلو الأخرى، ولكن بمجرد وضعها في مكانها فإنها تؤدي أداءً مذهلاً للغاية، كما ترون في الفيديو أدناه.
إذن ما هو الهدف النهائي؟ يعتقد فريق البحث أن المصفوفات الروبوتية مثل هذه يمكن استخدامها كمصفوفات ميكروفون محمولة ومنتشرة تلقائيًا وعازلة للصوت للبث المباشر في قاعة المؤتمرات وما شابه ذلك، مما يؤدي نظريًا إلى تشتيت أصواتهم بشكل أفضل من البشر.
ويقول الفريق إنه لن يكون ذا فائدة كبيرة في مكالمات الفيديو ثنائية الاتجاه، لأنه على الرغم من أنه يعمل بكفاءة، إلا أنه يستغرق حاليًا حوالي 1.82 ثانية لمعالجة كل كتلة صوت مدتها ثلاث ثوانٍ. ويعني زمن الوصول أيضًا أنه لن يكون قادرًا على بث الصوت النظيف من شريك المحادثة إلى سماعات الرأس في مقهى صاخب في وقت قصير - على الرغم من أن كلا التطبيقين ممكنان مع تحسن قوة الحوسبة وسرعتها.
وبطبيعة الحال، يمكن أن تصبح أيضًا أداة مراقبة مريحة للغاية، مما يزيل تأثير إخفاء ضوضاء الحشود وتسجيل المحادثات الخاصة. ومن المثير للاهتمام أن فريق البحث بجامعة واشنطن يقول إنه قد يفعل العكس تمامًا.
وقال طالب الدكتوراه مالك عيتاني، المؤلف الأول المشارك للدراسة: "إن لديها القدرة على الاستفادة حقًا من الخصوصية بما يتجاوز ما تسمح به مكبرات الصوت الذكية الحالية". "يمكنني أن أقول: لا تسجل أي شيء حول مكتبي، وسيقوم نظامنا بتسجيل كل شيء من حولي." قدم (0.9 متر). لن يتم تسجيل أي شيء في هذه الفقاعة. أو، إذا كانت هناك مجموعتان من الأشخاص يتحدثون في مكان قريب، حيث تجري إحدى المجموعتين محادثة خاصة بينما تقوم المجموعة الأخرى بالتسجيل، فيمكن وضع محادثة مجموعة واحدة في منطقة كتم الصوت وتظل خاصة.
في الواقع، قد يبدأ استخدام مصفوفات الميكروفونات الموزعة الثابتة في تصميمات الغرف الذكية أو المنازل الذكية، حيث يمكن بسهولة عزل أوامر التحكم الصوتي في مناطق مختلفة. على سبيل المثال، يمكنك التحكم في التلفزيون فقط من خلال الاستماع إلى الأصوات الصادرة من الأريكة، أو حتى انتقاء طلبات المشروبات من الشخص الذي يقف في البار في مكان صاخب.
ونشرت الدراسة في مجلة نيتشر كوميونيكيشنز.