يعد تقدير البنية ثلاثية الأبعاد لجسم الإنسان من مشاهد حقيقية مهمة صعبة وله أهمية كبيرة في مجالات مثل الذكاء الاصطناعي والرسومات والتفاعل بين الإنسان والحاسوب. ومع ذلك، عادةً ما يتم جمع مجموعات بيانات تقدير وضعية الإنسان ثلاثية الأبعاد الموجودة تحت ظروف خاضعة للرقابة بخلفيات ثابتة وتفشل في تمثيل تنوع مشاهد العالم الحقيقي، مما يحد من تطوير نماذج دقيقة لتطبيقات العالم الحقيقي.

في هذا الصدد، تُستخدم مجموعات البيانات الموجودة المشابهة لـ Human3.6M وHuMMan على نطاق واسع لتقدير وضعية الإنسان ثلاثية الأبعاد، ولكن يتم جمعها في بيئات معملية خاضعة للرقابة ولا يمكنها التقاط مدى تعقيد بيئات العالم الحقيقي بشكل كامل. تحتوي مجموعات البيانات هذه على قيود في تنوع المشهد والحركة البشرية وقابلية التوسع. اقترح الباحثون نماذج مختلفة لتقدير وضعية الإنسان ثلاثية الأبعاد، ولكن غالبًا ما يتم إعاقة فعاليتها عند تطبيقها على مشاهد حقيقية بسبب قيود مجموعات البيانات الموجودة.


أطلق فريق بحثي في ​​الصين مشروع "FreeMan"، وهو مشروع تم تطويره بشكل مشترك من قبل فرق من جامعة هونغ كونغ الصينية (شنتشن) وتينسنت ومؤسسات أخرى. تم الترحيب بها باعتبارها مجموعة بيانات مبتكرة متعددة العرض وتهدف إلى تحقيق اختراقات جديدة في مجال تقدير وضعية الإنسان ثلاثية الأبعاد.

FreeMan عبارة عن مجموعة بيانات جديدة متعددة العرض وواسعة النطاق مصممة لمعالجة القيود المفروضة على مجموعات البيانات الموجودة في تقدير الوضع البشري ثلاثي الأبعاد في المشاهد الحقيقية. يعد FreeMan مساهمة مهمة تهدف إلى تسهيل تطوير نماذج أكثر دقة وقوة.

إحدى خصائص مشروع FreeMan هي حجم وتنوع مجموعات البيانات الخاصة به. تتكون مجموعة البيانات من تسجيلات متزامنة لثمانية هواتف ذكية في سيناريوهات مختلفة، بما في ذلك 10 مشاهد مختلفة و27 مكانًا حقيقيًا، وتحتوي على إجمالي أكثر من 11 مليون إطار فيديو. يغطي كل مشهد ظروف إضاءة مختلفة، مما يجعل مجموعة البيانات هذه مصدرًا فريدًا.

مجموعة بيانات FreeMan مفتوحة المصدر لتعزيز تطوير مجموعات بيانات ما قبل التدريب واسعة النطاق وتوفر أيضًا معيارًا جديدًا لتقدير وضع الإنسان ثلاثي الأبعاد في الهواء الطلق. لا تتضمن مجموعة البيانات هذه مقاطع فيديو فحسب، بل توفر أيضًا معلومات توضيحية غنية، بما في ذلك النقاط الرئيسية ثنائية وثلاثية الأبعاد لجسم الإنسان، ومعلمات SMPL، والمربعات المحيطة، وما إلى ذلك، مما يوفر للباحثين موارد غنية لتعزيز البحث في المجالات ذات الصلة.

ومن الجدير بالذكر أن FreeMan يقدم تغييرات في معلمات الكاميرا والمقياس البشري لجعلها أكثر تمثيلاً. قام فريق البحث بتطوير عملية تعليقات توضيحية آلية لإنشاء تعليقات توضيحية ثلاثية الأبعاد دقيقة بكفاءة من البيانات المجمعة. تتضمن هذه العملية الكشف عن الإنسان، والكشف عن النقاط الرئيسية ثنائية الأبعاد، وتقدير الوضع ثلاثي الأبعاد، والتعليق التوضيحي للشبكة. تعتبر مجموعة البيانات الناتجة ذات قيمة لمجموعة متنوعة من المهام، بما في ذلك التقدير ثلاثي الأبعاد أحادي العين، والتحويل ثنائي الأبعاد إلى ثلاثي الأبعاد، والتقدير ثلاثي الأبعاد متعدد العروض، والعرض العصبي للموضوعات البشرية.

يقدم الباحثون تقييمًا أساسيًا شاملاً لـ FreeMan في مجموعة متنوعة من المهام. وقاموا بمقارنة أداء النماذج التي تم تدريبها على FreeMan مع النماذج التي تم تدريبها على Human3.6M وHuMMan. ومن الجدير بالذكر أن النموذج الذي تم تدريبه على FreeMan أظهر أداءً أفضل بكثير عند اختباره على مجموعة بيانات 3DPW، مما يسلط الضوء على قدرة FreeMan الفائقة على التعميم في سيناريوهات العالم الحقيقي.


في تجربة تقدير وضعية الإنسان ثلاثية الأبعاد متعددة المشاهدات، مقارنةً بالنموذج الذي تم تدريبه على Human3.6M، أظهر النموذج الذي تم تدريبه على FreeMan قدرة تعميم أفضل عند اختباره على مجموعات البيانات عبر المجالات. تظهر النتائج باستمرار مزايا تنوع FreeMan وحجمه.

في تجربة تحويل الوضعيات من ثنائي الأبعاد إلى ثلاثي الأبعاد، يكون التحدي الذي يواجهه FreeMan واضحًا، لأن النموذج الذي تم تدريبه على مجموعة البيانات هذه يواجه صعوبة أكبر. ومع ذلك، عندما تم تدريب النموذج على مجموعة تدريب FreeMan بأكملها، تحسن أدائه، مما يوضح إمكانات مجموعة البيانات هذه لتحسين أداء النموذج.

ومن المتوقع أن يؤدي توفر FreeMan إلى دفع عجلة التقدم في مجالات نمذجة جسم الإنسان، والرؤية الحاسوبية، والتفاعل بين الإنسان والحاسوب، وسد الفجوة بين ظروف المختبر الخاضعة للرقابة وسيناريوهات الحياة الواقعية.