وجدت الدراسة أن خوارزمية الذكاء الاصطناعي متحيزة ضد الجلد الأصفر

بعد تقارير في عام 2018 تفيد بأن خوارزميات تحليل الوجه الرائدة كانت أقل دقة عند الأشخاص ذوي ألوان البشرة الداكنة، استخدمت الشركات بما في ذلك Google وMeta قياسات لون البشرة لاختبار فعالية برامج الذكاء الاصطناعي الخاصة بها. يشير بحث جديد من شركة سوني إلى أن هذه الاختبارات تتجاهل جانبًا مهمًا من تنوع ألوان جلد الإنسان.

يقول باحثو سوني إن طرق قياس لون البشرة الشائعة الاستخدام حاليًا تستخدم فقط مقياسًا متدرجًا من الأفتح إلى الأغمق أو من الأبيض إلى الأسود لتمثيل لون البشرة، وبالتالي تتجاهل تأثير درجات اللون الأصفر والأحمر على نطاق لون بشرة الإنسان. ووجدوا أن أنظمة الذكاء الاصطناعي التوليدي، وخوارزميات تجريف الصور، وأدوات تحليل الصور، جميعها واجهت صعوبات خاصة مع البشرة الصفراء. قد تنطبق نقطة الضعف نفسها على مجموعة متنوعة من التقنيات التي ثبت أن دقتها تتأثر بلون البشرة، مثل برامج الذكاء الاصطناعي للتعرف على الوجه، وتتبع الجسم والكشف عن التزييف العميق، أو الأدوات مثل أجهزة مراقبة معدل ضربات القلب وكاشفات الحركة.

قالت أليس شيانغ، عالمة الأبحاث الرئيسية والرئيس العالمي لأخلاقيات الذكاء الاصطناعي في شركة سوني: "إذا تم تقييم المنتجات بهذه الطريقة الفريدة، فهناك الكثير من التحيز الذي لا يتم اكتشافه أو تخفيفه. نأمل أن يساعد العمل الذي نقوم به هنا في استبدال بعض مقاييس لون البشرة الحالية التي تركز فقط على الألوان الفاتحة مقابل الألوان الداكنة."

ولكن ليس الجميع مقتنعين بأن الخيارات الحالية غير كافية لتصنيف أنظمة الذكاء الاصطناعي. وقال إليس مونك، عالم الاجتماع في جامعة هارفارد، إن لوحة الألوان المكونة من 10 طبقات والتي أطلقها مع جوجل العام الماضي توفر خيارات من الفاتح إلى الداكن، ولكنها ليست ذات بعد واحد. وقال مونك: "يجب أن أعترف بأنني في حيرة من أمري بسبب الاقتراح القائل بأن النغمات والصبغات قد تم تجاهلها في الأبحاث السابقة حول هذا الموضوع". "تم تكريس الجهود البحثية لتحديد ألوان البشرة التي يجب منحها الأولوية على المقياس، وعند أي نقاط. لقد اختار درجات البشرة العشرة على مقياسه بناءً على بحثه الخاص حول التمييز على الألوان وبعد التشاور مع خبراء آخرين وأشخاص من المجتمعات الممثلة تمثيلاً ناقصًا."

قال X. Eyeé، الرئيس التنفيذي لشركة استشارات أخلاقيات الذكاء الاصطناعي Malo Santo ومؤسس فريق أبحاث لون البشرة في Google، إن مقياس Munch لم يكن المقصود منه أبدًا أن يكون حلاً نهائيًا ووصف عمل Sony بأنه تقدم مهم. لكن Eyeé يحذر أيضًا من أن موضع الكاميرا يمكن أن يؤثر على قيم ألوان CIELAB في الصور، وهي واحدة من عدة مشكلات تجعل المعيار نقطة مرجعية غير موثوقة. وقال آيي: "قبل أن نتمكن من تطبيق قياسات لون البشرة على خوارزميات الذكاء الاصطناعي في العالم الحقيقي، مثل مرشحات الكاميرا ومؤتمرات الفيديو، يجب القيام بالمزيد من العمل لضمان اتساق القياس".

إن الجدل حول المقاييس ليس أكاديميًا فقط. إن العثور على مقياس مناسب لما يسميه باحثو الذكاء الاصطناعي "العدالة" يمثل أولوية قصوى بالنسبة لصناعة التكنولوجيا، حيث يناقش المشرعون في دول بما في ذلك الاتحاد الأوروبي والولايات المتحدة مطالبة الشركات بمراجعة أنظمة الذكاء الاصطناعي الخاصة بها والإبلاغ عن المخاطر والعيوب. وقال الباحثون في شركة سوني إن أساليب التقييم الضعيفة يمكن أن تقوض بعض الفوائد العملية للوائح.

وفيما يتعلق بلون البشرة، قال شيانغ إن هناك ما يبرر بذل الجهود لتطوير المزيد من التحسينات: "نحن بحاجة إلى مواصلة محاولة إحراز تقدم. وقد تكون التدابير المختلفة مفيدة اعتمادًا على الوضع. ويسعدني أن هناك اهتمامًا متزايدًا بهذا المجال بعد تجاهله لفترة طويلة".

وقال المتحدث باسم جوجل، بريان غابرييل، إن الشركة ترحب بالدراسة الجديدة وتقوم بمراجعتها.

يأتي لون جلد الإنسان من تفاعل الضوء مع البروتينات وخلايا الدم والأصباغ مثل الميلانين. الطريقة القياسية لاختبار ما إذا كانت الخوارزمية متحيزة حسب لون البشرة هي فحص كيفية أدائها على ألوان البشرة المختلفة، مع ستة خيارات من الأفتح إلى الأغمق المعروفة باسم مقياس فيتزباتريك. تم تطوير هذا المقياس في الأصل من قبل أطباء الجلد لتقييم استجابة الجلد للأشعة فوق البنفسجية. وفي العام الماضي، أشاد باحثو الذكاء الاصطناعي في عالم التكنولوجيا بإطلاق جوجل مقياس مونك، قائلين إنه أكثر شمولاً.

قال باحثو سوني في دراسة قدمت هذا الأسبوع في المؤتمر الدولي للرؤية الحاسوبية في باريس إن CIELAB، وهو معيار الألوان الدولي لتحرير الصور وتصنيعها، يوفر طريقة أكثر دقة لتمثيل نطاق واسع من البشرة. عندما طبقوا معايير CIELAB لتحليل صور أشخاص مختلفين، وجدوا أن بشرتهم تختلف ليس فقط في اللون (عمق اللون) ولكن أيضًا في اللون (أي تدرج اللون).

يبدو أن عدم قدرة مقياس لون البشرة على التقاط درجات اللون الأحمر والأصفر في جلد الإنسان بشكل صحيح قد ساعد على عدم اكتشاف بعض التحيزات في خوارزمية التصوير. اختبر باحثو سوني أنظمة الذكاء الاصطناعي مفتوحة المصدر، بما في ذلك أداة التقاط الصور التي طورتها تويتر وزوج من خوارزميات توليد الصور، ووجدوا أن الخوارزميات تفضل البشرة الحمراء، مما يعني أن أعدادًا كبيرة من الأشخاص ذوي البشرة الصفراء لم يتم تمثيلهم بشكل كافٍ في الصور النهائية التي تنتجها الخوارزميات. وينطوي هذا على إمكانية الإضرار بمجموعات سكانية متنوعة، بما في ذلك شرق آسيا وجنوب آسيا وأمريكا اللاتينية والشرق الأوسط.

توصل باحثو سوني إلى طريقة جديدة لتمثيل لون البشرة لالتقاط التنوع الذي تم تجاهله سابقًا. يستخدم نظامهم إحداثيين بدلاً من رقم واحد لوصف لون البشرة في الصور. فهو يحدد كلا من المكان الذي تقع فيه درجات لون البشرة من الفاتح إلى الداكن، ومن الأصفر إلى الأحمر، وهو ما تسميه صناعة مستحضرات التجميل أحيانًا النغمات الدافئة إلى الباردة.

تعمل الطريقة الجديدة عن طريق عزل جميع وحدات البكسل في صورة تظهر الجلد، وتحويل قيمة لون RGB لكل بكسل إلى رمز CIELAB، ثم حساب متوسط درجة اللون ودرجة لون مجموعة بكسلات الجلد. أظهر أحد الأمثلة من الدراسة صورًا شخصية واضحة لنجم اتحاد كرة القدم الأميركي السابق تيريل أوينز والممثلة الراحلة إيفا غاربو بنفس لون البشرة ولكن بألوان مختلفة، حيث تظهر صورة أوينز أكثر احمرارًا وصورة غاربو أكثر اصفرارًا.

تساعد مقاييس الألوان التي لا تلتقط بشكل صحيح درجات اللون الأحمر والأصفر لجلد الإنسان على عدم اكتشاف التحيزات في خوارزميات التصوير.

عندما قام فريق سوني بتطبيق نهجه على البيانات وأنظمة الذكاء الاصطناعي عبر الإنترنت، اكتشفوا مشاكل كبيرة. وجد الباحثون أن CelebAMAsk-HQ، وهي مجموعة بيانات شائعة لوجوه المشاهير تستخدم لتدريب التعرف على الوجه وبرامج الرؤية الحاسوبية الأخرى، تحتوي على 82% من الصور متحيزة نحو درجات لون البشرة الحمراء، في حين أن مجموعة بيانات أخرى طورتها NVIDIA، FFHQ، كانت متحيزة بنسبة 66% نحو اللون الأحمر. أعاد نموذجان من الذكاء الاصطناعي تم تدريبهما على FFHQ إنتاج هذا التحيز: حوالي أربع من كل خمس صور تم إنشاؤها كانت متحيزة نحو درجات اللون الأحمر.

المشكلة لا تتوقف عند هذا الحد. عندما طُلب من برامج الذكاء الاصطناعي ArcFace وFaceNet وDlib تحديد ما إذا كانت صورتان متطابقتان لنفس الشخص، كان أداؤها أفضل على البشرة الحمراء، وفقًا لبحث أجرته شركة Sony. قال ديفيس كينج، مطور Dlib، إنه لم يتفاجأ بالتحيز لأن العارضة تم تدريبها في المقام الأول على صور المشاهير الأمريكيين.

أدوات Cloud AI التي تقدمها Microsoft Azure وAmazon Web Services للكشف عن الابتسامات تعمل أيضًا بشكل أفضل مع درجات اللون الأكثر احمرارًا. وقالت سارة بيرد، التي تقود هندسة الذكاء الاصطناعي في مايكروسوفت، إن الشركة تعمل على زيادة استثماراتها في العدالة والشفافية. وقال المتحدث باسم أمازون، باتريك نيغورن: "نحن نرحب بالتعاون مع مجتمع البحث ونقوم بمراجعة هذه الدراسة بعناية". ورفضت نفيديا التعليق.

كشخص ذو بشرة صفراء، يشعر شيانغ بقلق بالغ بشأن الكشف عن القيود المفروضة على طرق اختبار الذكاء الاصطناعي اليوم. وقالت إن سوني ستستخدم النظام الجديد لتحليل نماذج الرؤية الحاسوبية التي تركز على الإنسان عند عرضها للمراجعة، ورفضت تحديد أي منها. وقالت: "لدينا جميعاً ظلال مختلفة من البشرة. ولا ينبغي استخدام هذا للتمييز ضدنا".

هناك ميزة محتملة أخرى لنهج سوني. تتطلب القياسات مثل Monkscale من Google من البشر تصنيف مكان سقوط جلد فرد معين على الطيف. يقول مطورو الذكاء الاصطناعي إنها مهمة متغيرة، حيث يمكن أن تتأثر تصورات الناس بموقعهم أو تصوراتهم عن عرقهم وهويتهم.

إن نهج سوني مؤتمت بالكامل ولا يتطلب أي حكم بشري. لكن مونك من جامعة هارفارد يتساءل عما إذا كان هذا أفضل. إن طرق القياس الموضوعي مثل تلك التي تتبعها شركة سوني يمكن أن تؤدي في نهاية المطاف إلى تبسيط أو تجاهل التعقيدات الأخرى للتنوع البشري. وقال: "إذا كان هدفنا هو إزالة التحيز، وكان التحيز ظاهرة اجتماعية، فأنا لست متأكدًا من أننا يجب أن نحذف من التحليل كيف ينظر البشر إلى لون البشرة اجتماعيًا".