ثورة الذكاء الاصطناعي تنفد من البيانات. ماذا يمكن للباحثين أن يفعلوا؟

إن الإنترنت بمثابة كنز هائل من المعرفة الإنسانية، ولكنه ليس مصدرًا لا ينضب. يستنزف الباحثون في مجال الذكاء الاصطناعي هذه الموارد بسرعة. ويعود التطور السريع في مجال الذكاء الاصطناعي خلال العقد الماضي إلى حد كبير إلى توسع الشبكات العصبية وتدريبها على كميات هائلة من البيانات. يعد هذا الأسلوب فعالًا جدًا في تطوير نماذج اللغات الكبيرة (LLM)، مثل النموذج الذي يحرك برنامج chatbot ChatGPT.لكن بعض الخبراء يحذرون من أن هذا التوسع يقترب من حدوده. بالإضافة إلى تزايد متطلبات الطاقة الحسابية، هناك سبب آخر وهو أن مطوري LLM ينفدون من مجموعات البيانات التقليدية.

في الآونة الأخيرة، قامت دراسة رفيعة المستوى بقياس هذه المشكلة وأثارت قلقًا واسع النطاق. يتوقع الباحثون في معهد الأبحاث الافتراضية EpochAI أنه بحلول عام 2028 تقريبًا، سيقترب حجم مجموعات البيانات النموذجية المستخدمة لتدريب نماذج الذكاء الاصطناعي من الكمية الإجمالية للنصوص المتاحة للجمهور على الإنترنت. وبعبارة أخرى، يمكن أن ينفد الذكاء الاصطناعي من بيانات التدريب المتاحة في غضون أربع سنوات. وفي الوقت نفسه، بدأ أصحاب المحتوى (مثل ناشري الصحف) في اتخاذ تدابير أكثر صرامة للحد من استخدام البيانات، مما يزيد من تفاقم أزمة "مشاركة البيانات".

على الرغم من أن هذه القيود قد تؤدي إلى إبطاء تطوير أنظمة الذكاء الاصطناعي، إلا أن المطورين يبحثون بنشاط عن الحلول. على سبيل المثال، اعترفت شركات الذكاء الاصطناعي المعروفة مثل OpenAI وAnthropic علنًا بهذه المشكلة وألمحت إلى أنها تخطط لحل هذه المعضلة من خلال توليد بيانات جديدة أو البحث عن مصادر بيانات غير تقليدية. وقال متحدث باسم OpenAI: "لقد استخدمنا مجموعة متنوعة من المصادر، بما في ذلك البيانات المتاحة للجمهور، والبيانات غير العامة التي تمت مشاركتها مع الشركاء، وتوليد البيانات الاصطناعية، والبيانات المقدمة من مدربي الذكاء الاصطناعي".

ومع ذلك، فإن أزمة البيانات هذه قد تفرض تغييرا في الطريقة التي يتم بها تطوير نماذج الذكاء الاصطناعي التوليدية، من نماذج لغوية كبيرة ذات أغراض عامة واسعة النطاق إلى نماذج أصغر وأكثر تخصصا، وبالتالي تغيير مشهد النظام البيئي للذكاء الاصطناعي بأكمله.