أصدرت شركة Sony مجموعة بيانات معيارية جديدة للذكاء الاصطناعي لمساعدة نماذج رؤية الكمبيوتر على تقليل التحيز

استجابة لمشكلة التحيز الشائعة في النماذج المرئية الحالية للذكاء الاصطناعي، أصدر فريق Sony AI مؤخرًا مجموعة بيانات جديدة تسمى "Fair Human-Centric Image Benchmark (FHIBE)"، بهدف تعزيز توحيد اختبار العدالة وجمع البيانات الأخلاقية.

تم جمع جميع الصور الموجودة في مجموعة البيانات هذه بموافقتي، وهي تغطي 81 دولة ومنطقة حول العالم. يحتوي على إجمالي 10318 صورة و1981 موضوعًا مستقلاً. تم تجهيز كل صورة بتعليقات توضيحية تفصيلية، بما في ذلك المعلومات المهنية مثل تعريفات الحدود وأقنعة التجزئة ومعلمات الكاميرا، لتسهيل قيام المطورين بإجراء تقييم تفصيلي للنموذج.

وقالت أليس شيانغ، رئيسة حوكمة الذكاء الاصطناعي العالمية في شركة Sony AI، إن سوء الفهم في مجال الرؤية الحاسوبية هو أن النماذج يمكن أن تعكس الواقع بشكل موضوعي بسبب اعتمادها على البيانات والخوارزميات. في الواقع، سيؤثر تحيز البيانات في عملية التدريب النموذجية بشكل مباشر على الأداء الفعلي. على سبيل المثال، في الصين، لم تكن بعض أنظمة التعرف على الوجه بالهواتف المحمولة تحتوي على وجوه آسيوية كافية في بيانات التدريب، مما تسبب في قيام أفراد الأسرة بفتح الجهاز عن طريق الخطأ وإكمال المدفوعات، مما تسبب في مخاطر أمنية. بالإضافة إلى ذلك، واجهت النماذج المرئية الحالية أيضًا مشاكل مثل التصنيف الخاطئ للطبيبات كممرضات، أو تعزيز الصور النمطية المهنية والعنصرية والجنسانية عن غير قصد.

في السابق، لم تحصل معظم مجموعات بيانات الرؤية الحاسوبية المستخدمة لتقييم العدالة على موافقة المشاركين، بل وحتى تم الزحف إلى الصور مباشرة من منصات الإنترنت، الأمر الذي أدى إلى إثارة العديد من النزاعات حول حقوق الطبع والنشر والخصوصية. في المقابل، تحتوي جميع عمليات جمع البيانات التي تقوم بها FHIBE على سجلات عامة كاملة لعمليات الموافقة والتعويض، وتعتبر أنها وضعت معيارًا أخلاقيًا جديدًا لهذه الصناعة.

استنادًا إلى اختبار FHIBE، وجد فريق Sony AI أن دقة بعض النماذج انخفضت عند التعامل مع ضمائر الجنس المحددة (مثل "هي/لها/لها") بسبب تنوع تسريحات الشعر. قد يربط النموذج أيضًا بشكل غير معقول الأنشطة الإجرامية بمجموعات عرقية معينة في مهمة التعرف على الاحتلال. وشدد الفريق على أن FHIBE يمكن أن يساعد المطورين على اكتشاف هذه الانحرافات وتصحيحها في الوقت المناسب، وتعزيز الصناعة لإيلاء المزيد من الاهتمام للأخلاقيات والعدالة في جمع البيانات، وتشجيع موظفي البحث والتطوير على استثمار المزيد من الموارد في تحسين ابتكار طبقة البيانات.

في الوقت الحاضر، على الرغم من أن المستوى الفيدرالي الأمريكي لم يقدم بعد سياسات تدعم على وجه التحديد أخلاقيات الذكاء الاصطناعي وعدالته، فقد بدأ قانون الذكاء الاصطناعي للاتحاد الأوروبي واللوائح ذات الصلة في بعض الولايات الأمريكية في المطالبة بمراجعة التحيز الخوارزمي في المناطق عالية المخاطر. اعتمدت مجموعة سوني مجموعة بيانات FHIBE في عملية تقييم أخلاقيات الذكاء الاصطناعي وتقوم بمراجعة استباقية لعدالة نماذج أعمالها بما يتوافق مع مدونة أخلاقيات الذكاء الاصطناعي.

تعتقد أليس شيانغ أن "عدمية البيانات" منتشرة بشكل متزايد في الصناعة، وتظهر ممارسة FHIBE أنه يمكن تطوير تكنولوجيا الذكاء الاصطناعي بالكامل بناءً على البيانات المعتمدة والتعويضية. على الرغم من أن الحجم الحالي لـ FHIBE لا يزال صغيرًا وغير كافٍ لدعم التدريب على البيانات الضخمة، إلا أن أهميته تكمن في تقديم عروض توضيحية للطرق للصناعة وجذب المزيد من الاهتمام لابتكار طبقة البيانات، والتي لا تزال مشكلة مهمة تحتاج إلى حل في مجال الذكاء الاصطناعي الحالي.