قامت Google مؤخرًا بفتح مصدر جديد لناقل النص متعدد اللغات يسمى RETVec على GoogleColab. تم نشر أداة التوجيه هذه على Gmail لتحسين معدل التعرف على البريد العشوائي ورسائل البريد الإلكتروني التصيدية مع تقليل المعدل الإيجابي الخاطئ. تقول Google إن RETVec مدرب على مقاومة العمليات على مستوى الأحرف، بما في ذلك عمليات الإدراج والحذف والأخطاء الإملائية،المتجانسات، استبدال LEET، وما إلى ذلك. تم تدريب هذا النموذج على أعلى برنامج تشفير أحرف جديد يمكنه تشفير جميع أحرف وكلمات UTF-8 بشكل فعال.
لماذا تدريب مثل هذا النموذج؟ نظرًا لأن Gmail يرسل ويستقبل عشرات الملايين من رسائل البريد الإلكتروني كل يوم، وإذا كان يحتوي على أنواع مختلفة من البريد العشوائي، فقد يصل إلى المليارات، وسيتحايل مرسلي البريد العشوائي على نظام الكشف الخاص بشركة Google، مثل استخدام المتجانسات.
يدعم RETVec أكثر من 100 لغة وهو مصمم للمساعدة في إنشاء تصنيف نصي أكثر مرونة وكفاءة على الخادم والجهاز، مع كونه أيضًا أكثر قوة وكفاءة.
وفقًا لإحصائيات Google الخاصة، بعد تطبيق RETVec على Gmail، زاد معدل اكتشاف البريد العشوائي بنسبة 38% مقارنة بخط الأساس، وانخفض المعدل الإيجابي الخاطئ بنسبة 19.4%، وانخفض استخدام وحدة المعالجة الموترة (TPU) بنسبة 83%.
يقول مهندسو Google أن النماذج التي تم تدريبها باستخدام RETVec تظهر سرعات استدلال أسرع نظرًا لتمثيلها المضغوط. يمكن للنماذج الأصغر حجمًا تقليل التكاليف الحسابية وتقليل زمن الوصول، وهو أمر بالغ الأهمية للنماذج الموجودة على الأنظمة والأجهزة واسعة النطاق.
التوجيه هو أسلوب في البرمجة اللغوية العصبية، أو معالجة اللغة الطبيعية، يُستخدم لتعيين الكلمات أو العبارات في المفردات للتعبيرات الرقمية المقابلة من أجل إجراء مزيد من التحليل، مثل تحليل المشاعر، وتصنيف النص، والتعرف على الكيانات المسماة.