تحاول ويكيبيديا منع مطوري الذكاء الاصطناعي من نسخ المنصة من خلال نشر مجموعات بيانات مُحسّنة خصيصًا لتدريب نماذج الذكاء الاصطناعي.أعلنت مؤسسة ويكيميديا ​​يوم الأربعاء أنها دخلت في شراكة مع منصة مجتمع علوم البيانات من Google لاستضافة بيانات التعلم الآليتتعاون Kaggle لإصدار مجموعة بيانات تجريبية من "محتوى ويكيبيديا المنظم باللغتين الإنجليزية والفرنسية".

Kaggle_SS_1920x1080_v3.width-1000.format-webp.webp

تقول ويكيبيديا إن مجموعات البيانات التي تستضيفها Kaggle "مصممة مع وضع سير عمل التعلم الآلي في الاعتبار"، مما يسهل على مطوري الذكاء الاصطناعي الوصول إلى بيانات المقالة المقروءة آليًا من أجل النمذجة والضبط الدقيق والمعايير والمواءمة والتحليل. تم ترخيص المحتوى الموجود في مجموعة البيانات بشكل عام اعتبارًا من 15 أبريل ويتضمن ملخصات الدراسة والأوصاف القصيرة وروابط الصور وبيانات صندوق المعلومات وفصول المقالات، ولكنه لا يتضمن عناصر غير مكتوبة مثل المراجع أو الملفات الصوتية.

تقول ويكيبيديا إن مستخدمي Kaggle يمكنهم استهلاك "محتوى ويكيبيديا جيد التنظيم بتنسيق JSON"، والذي يجب أن يكون أكثر جاذبية من "الزحف إلى نص المقالة الخام أو تحليله". تتعرض خوادم ويكيبيديا حاليًا لضغوط كبيرة حيث تستمر روبوتات الذكاء الاصطناعي الآلية في استهلاك النطاق الترددي للمنصة. لدى ويكيبيديا بالفعل اتفاقيات لمشاركة المحتوى مع جوجل وأرشيف الإنترنت، لكن الشراكة مع كاجل من شأنها أن تجعل البيانات في متناول الشركات الصغيرة وعلماء البيانات المستقلين.

وقالت بريندا فلين، رئيسة الشراكات في Kaggle: "باعتبارها أداة ومنصة اختبار لمجتمع التعلم الآلي، فإن Kaggle متحمسة لأن تكون منصة استضافة بيانات مؤسسة ويكيميديا". "إن Kaggle متحمس للعب دور في ضمان إمكانية الوصول إلى هذه البيانات وسهولة استخدامها وفائدتها."