تعد بيانات التدريب على الذكاء الاصطناعي باهظة الثمن وهي مناسبة أكثر لشركات التكنولوجيا ذات الأموال الكبيرة. ولهذا السبب تخطط جامعة هارفارد لإصدار مجموعة بيانات عامة تضم حوالي مليون كتاب من كتب الملكية العامة عبر مجموعة متنوعة من الأنواع واللغات والمؤلفين، بما في ذلك ديكنز ودانتي وشكسبير، الذين لم يعودوا محميين بموجب حقوق الطبع والنشر بسبب أعمارهم.
لم يتم إصدار مجموعة البيانات الجديدة بعد، وليس من الواضح متى أو كيف سيتم إصدارها. الكتب التي تحتوي عليها هي من كتب Google، وهو مشروع مسح الكتب طويل المدى من Google، لذلك ستشارك Google في إطلاق "التطبيقات الواسعة لهذه الكتب الدفينة".
قامت جامعة هارفارد بمعاينة مبادرة البيانات المؤسسية (IDI) لأول مرة في شهر مارس، موضحة خططها لإنشاء "قناة موثوقة للبيانات القانونية للذكاء الاصطناعي". ومع ذلك، لم يكن هناك سوى القليل من الأخبار حول البرنامج حتى إطلاقه رسميًا اليوم، مع حصول IDI على دعم مالي من Microsoft وOpenAI.
وقال جريج ليبيرت، المدير التنفيذي لـ IDI، إن مجموعة البيانات تهدف إلى "تكافؤ الفرص" من خلال فتح مجموعة البيانات الضخمة هذه لأي شخص يرغب في تدريب نماذج لغوية كبيرة (LLMs)، بدءًا من مختبرات الأبحاث وحتى الشركات الناشئة في مجال الذكاء الاصطناعي.