كشف باحثو الذكاء الاصطناعي في مايكروسوفت عن طريق الخطأ عن عشرات التيرابايت من البيانات الحساسة، بما في ذلك المفاتيح الخاصة وكلمات المرور، عندما أطلقوا مجموعة بيانات تدريب مفتوحة المصدر على GitHub. في مذكرة بحثية تمت مشاركتها مع TechCrunch، قالت شركة Wiz الناشئة في مجال الأمن السحابي إنها اكتشفت مستودع GitHub التابع لوحدة أبحاث الذكاء الاصطناعي في Microsoft كجزء من عملها المستمر بشأن التعرض العرضي للبيانات المستضافة على السحابة.

يوفر مستودع GitHub هذا تعليمات برمجية مفتوحة المصدر ونماذج ذكاء اصطناعي للتعرف على الصور، ويوجه القراء إلى تنزيل النموذج من عنوان URL لتخزين Azure. ومع ذلك، اكتشف Wiz أنه تم تكوين عنوان URL لمنح الأذونات لحساب التخزين بالكامل، وبالتالي الكشف عن المزيد من البيانات الخاصة عن طريق الخطأ.

وتضمنت البيانات 38 تيرابايت من المعلومات الحساسة، بما في ذلك النسخ الاحتياطية الشخصية لأجهزة الكمبيوتر الشخصية لاثنين من موظفي مايكروسوفت. وتضمنت البيانات أيضًا بيانات شخصية حساسة أخرى، بما في ذلك كلمات المرور والمفاتيح لخدمات Microsoft وأكثر من 30 ألف رسالة Microsoft Teams داخلية من مئات موظفي Microsoft.

وفقًا لـ Wiz، تم أيضًا تكوين عناوين URL التي كشفت هذه البيانات من عام 2020 بشكل غير صحيح للسماح بـ "التحكم الكامل" بدلاً من أذونات "القراءة فقط"، مما يعني أنه من المحتمل أن يقوم أي شخص يعرف مكان البحث بحذف المحتوى الضار واستبداله وإدخاله.

وأشار ويز إلى أن حساب التخزين لم يتم كشفه بشكل مباشر. وبدلاً من ذلك، قام مطورو Microsoft AI بتضمين رمز مميز لتوقيع الوصول المشترك (SAS) في عنوان URL. رموز SAS هي آلية تستخدمها Azure للسماح للمستخدمين بإنشاء روابط قابلة للمشاركة تمنح الوصول إلى بيانات حساب تخزين Azure.

قال آمي لوتواك، المؤسس المشارك والرئيس التنفيذي للتكنولوجيا في Wiz: "لقد فتح الذكاء الاصطناعي إمكانات هائلة لشركات التكنولوجيا. ومع ذلك، بينما يتسابق علماء ومهندسو البيانات لوضع حلول ذكاء اصطناعي جديدة في الإنتاج، فإن البيانات الضخمة التي يتعاملون معها تتطلب فحوصات أمنية إضافية وتدابير حماية. ومع احتياج العديد من فرق التطوير إلى معالجة كميات كبيرة من البيانات، أو مشاركة البيانات مع أقرانهم، أو التعاون في مشاريع عامة مفتوحة المصدر، تزداد صعوبة مراقبة حالات مثل حالة Microsoft وتجنبها."

وقالت Wiz إنها شاركت النتائج التي توصلت إليها مع Microsoft في 22 يونيو، وألغت Microsoft رموز SAS بعد يومين في 24 يونيو. وقالت Microsoft إنها أكملت تحقيقها في التأثير التنظيمي المحتمل في 16 أغسطس.

وقال Microsoft Security Response في منشور مدونة تمت مشاركته قبل النشر: "لم يتم الكشف عن أي بيانات للعملاء، ولم تكن أي خدمات داخلية أخرى معرضة للخطر نتيجة لهذه المشكلة".

قالت Microsoft إنه بناءً على النتائج التي توصلت إليها Wiz، فقد قامت بتوسيع خدمة فحص الأسرار الخاصة بـ GitHub، والتي تراقب التغييرات في جميع التعليمات البرمجية مفتوحة المصدر العامة لمنع الكشف عن النص الواضح لبيانات الاعتماد والأسرار الأخرى، بما في ذلك أي رموز SAS المميزة التي قد يكون لها فترات انتهاء صلاحية أو أذونات مفرطة.