وفقًا للأخبار الصادرة عن WIRED، بدأت العديد من مواقع الويب في الولايات المتحدة في حظر وظيفة اللقطة الخاصة بـ Wayback Machine لأرشيف الإنترنت، أي أنه لم يعد يُسمح لـ Wayback Machine بالتقاط صفحات هذه المواقع الإخبارية وأرشفتها. والسبب هو أن برامج زحف الذكاء الاصطناعي تلتقط البيانات وتستخدمها لتدريب النماذج.

تسببت طفرة الذكاء الاصطناعي الحالية في انخفاض عدد كبير من حركة مرور مواقع الويب بشكل كبير، وتجد شركات الذكاء الاصطناعي طرقًا لتجاوز القيود والزحف بشكل غير قانوني إلى محتوى موقع الويب، وفي النهاية استخدام البيانات التي تم التقاطها لروبوتات المحادثة المعتمدة على الذكاء الاصطناعي أو لتدريب نماذج الذكاء الاصطناعي اللاحقة.
بالنسبة لمواقع الويب، يتضمن هذا السلوك الزحف إلى المحتوى واستخدامه دون إذن، وسيؤدي إلى رفض حركة المرور على موقع الويب. لذلك، حظرت العديد من مواقع الويب صراحةً برامج زحف البحث الخاصة بالذكاء الاصطناعي من الزحف إلى بيانات موقع الويب في ملف robots.txt.
تم قتل كل من أرشيف الإنترنت ومستخدميه عن طريق الخطأ:
من أجل حماية حقوقهم ومصالحهم المشروعة، قامت العديد من وسائل الإعلام الإخبارية المعروفة، بما في ذلك USA Today وNew York Times وما إلى ذلك، بحظر آلة الزمن على موقع أرشيف الإنترنت. تستبعد مواقع الأخبار هذه الزاحف ia_archiverbot، وهو الزاحف الذي يستخدمه أرشيف الإنترنت.
بالإضافة إلى وسائل الإعلام الإخبارية، تمنع المنتديات عبر الإنترنت مثل Reddit أيضًا أرشيف الإنترنت من الزحف إلى المحتوى. وقعت Reddit اتفاقيات ترخيص مع Google وOpenAI للسماح لهذه الشركات بالزحف إلى البيانات واستخدامها لتدريب نماذج الذكاء الاصطناعي. على الأقل بالنسبة لريديت، إذا سُمح لأرشيف الإنترنت بالزحف إلى البيانات، ثم قامت شركات الذكاء الاصطناعي بالزحف إلى بيانات أرشيف الإنترنت، فقد لا تتمكن من الاستمرار في بيع البيانات.
المشكلة هي أن الكثير من المحتوى غير موجود بشكل دائم. تكمن أهمية آلة الزمن الخاصة بموقع الويب في أنه يمكنك عرض التغييرات في محتوى صفحة الويب والاستمرار في تصفح المحتوى من خلال اللقطات عند حذف صفحة الويب. وهذا مهم جدًا للعديد من المستخدمين.
لذلك، في ظل جنون الذكاء الاصطناعي، فإن وسائل الإعلام الإخبارية التي تمنع أرشيف الإنترنت من الزحف إلى البيانات هي في الواقع قتل غير متعمد لأرشيف الإنترنت والمستخدمين: من أجل حظر شركات الذكاء الاصطناعي ثم حظر المستخدمين الذين يستخدمون عادةً الوظائف ذات الصلة.
قالت USA Today إن هذا لم يكن موجهًا إلى أرشيف الإنترنت:
قال متحدث باسم USA Today إن حظر المحتوى الذي تم الزحف إليه بواسطة أرشيف الإنترنت لا يستهدف أرشيف الإنترنت على وجه التحديد. إنها خطة الشركة العادية لحظر جميع برامج زحف الويب على نطاق واسع.
وقال مدير الشؤون التجارية والتراخيص بصحيفة الغارديان إن الشركة تتواصل مع أرشيف الإنترنت لمناقشة إمكانية إساءة استخدام شركات الذكاء الاصطناعي للزحف إلى المحتوى لأغراض الحفظ (لكن لا توجد نتيجة واضحة حتى الآن).
انطلاقًا من هذا الموقف، قد تقوم المزيد والمزيد من الوسائط بحظر أرشيف الإنترنت في المستقبل لمنع الزحف إلى محتواها من قبل شركات الذكاء الاصطناعي من خلال أرشيف الإنترنت. في التحليل النهائي، لا يزال السبب الجذري هو شركات الذكاء الاصطناعي هذه.
ليس من غير المألوف أن تقوم شركات الذكاء الاصطناعي هذه بالزحف إلى المحتوى دون إذن والزحف إلى المحتوى بترددات عالية. في نهاية المطاف، قد يؤدي هذا إلى تغيير مشهد الإنترنت المفتوح، مما يسمح لمزيد من مواقع الويب بالتحول من الوصول العام إلى الوصول لتسجيل الدخول المسجل أو حتى الوصول المدفوع.