كشف منتدى الإنترنت الشهير Reddit مؤخرًا أن الشركة اكتشفت أن شركة ذكاء اصطناعي قامت بسرقة بيانات من Reddit من خلال موقع Wayback Machine الخاص بأرشيف الإنترنت، وهو ما ينتهك شروط استخدام Reddit.

قام Reddit سابقًا بحظر معظم برامج زحف محركات البحث وبرامج زحف الذكاء الاصطناعي من الزحف إلى البيانات. إذا كنت تريد الزحف إلى البيانات للتدريب على نماذج الذكاء الاصطناعي، فستحتاج إلى التوقيع على ترخيص تجاري مع Reddit ودفع رسوم قبل الزحف.

على سبيل المثال، تدفع جوجل ما يصل إلى 60 مليون دولار سنويًا لمنتدى Reddit للوصول إلى البيانات. يمكن لـ Google الزحف إلى منشورات Reddit الضخمة والبيانات الأخرى للتدريب النموذجي. لا تزال هذه صفقة جديرة بالاهتمام بالنسبة لشركة Google.

في حين أن أرشيف الإنترنت يعمل منذ فترة طويلة مع ريديت لفهرسة المنشورات والتقاطها في آلة الزمن الخاصة بالموقع حتى يمكن مشاهدتها في المستقبل، بدأت شركات الذكاء الاصطناعي التي لا ترغب في دفع الرسوم في تحويل برامج الزحف الخاصة بها إلى أرشيف الإنترنت، وذلك باستخدام أرشيف الإنترنت كوسيلة للزحف إلى ريديت.

بعد اكتشاف هذا الموقف، قرر Reddit البدء فورًا في حظر الزحف وفهرسة معظم الصفحات بواسطة أرشيف الإنترنت. لم تعد وظيفة آلة الزمن بموقع الويب قادرة على الزحف إلى صفحات تفاصيل المنشور والتعليقات والمعلومات الشخصية. على العكس من ذلك، يمكن لآلة الزمن الخاصة بموقع الويب الزحف بشكل محدود فقط إلى صفحة Reddit الرئيسية أو التنقل في المنشورات الشائعة، أي أنها يمكنها فقط الزحف إلى محتوى مثل العناوين.

قال الرئيس التنفيذي لشركة Reddit إنه سيمنع عملية استخراج بيانات أرشيف الإنترنت بدءًا من اليوم، وقد اتصل بأرشيف الإنترنت مسبقًا لإعلامهم قبل دخول القيود حيز التنفيذ. قال أرشيف الإنترنت إنه يتواصل حاليًا بشكل نشط مع Reddit بشأن هذه المسألة.

كما رفع Reddit سابقًا دعوى قضائية ضد مطور Claude Anthropic. واتهم موقع Reddit شركة Anthropic بالزحف إلى المحتوى دون تصريح. حتى لو ذكر Reddit أنه منع الزاحف الخاص به من الزحف إلى البيانات، فإن Anthropic ستستمر في الزحف إلى المحتوى وانتهاك شروط استخدام Reddit.