تختبر منصة AI Studio التابعة لشركة Google نموذجًا غير مسمى للذكاء الاصطناعي وقد حققت تقدمًا مهمًا في فك رموز المخطوطات التاريخية غير المقروءة. تبلغ نسبة خطأ النموذج في التعرف على الحروف الأساسية 0.56% فقط، كما أن دقته تقترب من مستوى الباحثين المحترفين في هذا المجال.
أجرى المؤرخ مارك همفريز تقييمًا منهجيًا للنموذج باستخدام مجموعة بيانات مرجعية مصممة لهذا الغرض. في المخطوطات الخمس الصعبة من القرن الثامن عشر إلى القرن التاسع عشر التي شملها الاختبار، كان معدل الخطأ الإجمالي في أحرف النموذج حوالي 1.7%. حدثت معظم الأخطاء في مشكلات غير أساسية مثل علامات الترقيم ومواصفات الكتابة بالأحرف الكبيرة، ولم تؤثر على التعرف الصحيح على الكلمات نفسها.
إذا تم استبعاد هذه الأخطاء غير الجسيمة، فيمكن تقليل معدل خطأ الأحرف في النموذج إلى 0.56%، وهو ما يعادل خطأ جوهريًا واحدًا فقط لكل 200 حرف مكتوب. أدائها يمكن مقارنته بالفعل بأداء العمال المحترفين الذين يركزون على الترجمة الصوتية للمستندات.
تغطي مخطوطات الاختبار مجموعة متنوعة من أساليب الكتابة، بما في ذلك المواقف المعقدة مثل الكتابة اليدوية غير المقروءة، والتهجئة غير القياسية، والقواعد غير المتسقة، مما يؤكد تمامًا القدرة القوية على التكيف للنموذج.والأمر الأكثر جدارة بالملاحظة هو أن هذا النموذج لا يمكنه إكمال نسخ النص فحسب، بل يمكنه أيضًا إظهار بعض قدرات التفكير السياقي.
على سبيل المثال، عند معالجة مذكرات تاجر من القرن الثامن عشر، واجه النموذج سجل شراء سكر يبلغ "145" بدون وضع علامة على الوحدة. ومن خلال التحقق مرة أخرى من إجمالي الحساب ودمجه مع العملة البريطانية وأنظمة وحدة الوزن في ذلك الوقت، نجح في استنتاج أن الرقم يمثل "14 جنيهًا و5 أونصات".
وأشار همفريز أيضًا إلى أن التقييم الحالي لا يزال به بعض القيود. وبما أن هذا النموذج لا يظهر إلا بشكل متقطع في شكل اختبار أ/ب، فمن الصعب إجراء تحقق منهجي على نطاق واسع. حاليًا، تم تقييم حوالي 10% فقط من العينات الموجودة في مجموعة البيانات المرجعية.
