يعرض منشور حديث على مدونة Google Security Blog تفاصيل الترقيات الجديدة لمرشحات البريد العشوائي في Gmail، والتي تسميها Google "واحدة من أكبر الترقيات الدفاعية في السنوات الأخيرة". تأتي الترقية في شكل نظام جديد لتصنيف النصوص يسمى RETVec (Resilient Efficient Text Vectorizer). تقول Google إن هذا يساعد في فهم "التلاعب بالنص العدائي" - رسائل البريد الإلكتروني المليئة بالأحرف الخاصة والرموز التعبيرية والأخطاء المطبعية وغيرها من الأحرف غير المرغوب فيها التي كانت مقروءة في السابق للبشر ولكن لا يمكن للآلات فهمها بسهولة. في السابق، كانت الرسائل غير المرغوب فيها المليئة بالأحرف الخاصة تتخطى بسهولة دفاعات Gmail.

إذا كنت ترغب في الحصول على فكرة عما تبدو عليه "معالجة النصوص العدائية"، فإليك ما يوجد في مجلد الرسائل غير المرغوب فيها:

تجربتي الشخصية هي أنه في النصف الأول من العام، كانت رسائل البريد الإلكتروني هذه تمثل مشكلة كبيرة، وكنت أراها في صندوق الوارد الخاص بي كثيرًا. ومع ذلك، يبدو أن ترقية تقنية RETVec هذه قد أحدثت فرقًا، حيث لم أواجه أي رسائل بريد إلكتروني من هذا القبيل على الإطلاق خلال الأشهر القليلة الماضية.

من الصعب فرز رسائل البريد الإلكتروني مثل هذه لأن أي مرشح للبريد العشوائي من المحتمل أن يعترض رسالة بريد إلكتروني تقول "تهانينا! رصيد حسابك الفائز هو 1000 دولار أمريكي"، ولكن هذا ليس هو المحتوى الفعلي للبريد الإلكتروني. معظم الحروف هنا هي "متجانسة" - من خلال الخوض في الأعماق اللامتناهية لمعيار Unicode، يمكنك العثور على أحرف غامضة تبدو وكأنها جزء من الأبجدية اللاتينية العادية، ولكنها ليست كذلك.

على سبيل المثال، الموضوع "Check_Your_Account" غامق بشكل غريب، ليس لأنه يحتوي على نمط غامق، ولكن لأنه يستخدم حرف رسومي Unicode مثل "Math Bold Capital C". إنه رمز رياضي يبدو مثل الحرف "C" بالنسبة للبشر، لكن برامج تصفية البريد العشوائي تراه بدقة كرمز رياضي ولا تفهم معناه باللغة الإنجليزية. كلما نظرت إلى بريد إلكتروني مثل هذا عن كثب، أصبح الأمر أسوأ: تم استبدال الحرف "O" في "CONGRATULATIONS" بالرقم 0، والحرف السفلي في "Jackpot" غريب جدًا لدرجة أنه لا يمكن العثور عليه حتى في بحث Unicode، ويتم استبدال الكثير من المسافات بنقاط أو شرطات سفلية. ونتيجة لذلك، تستسلم مرشحات البريد العشوائي عندما ترى رسائل البريد الإلكتروني الفوضوية هذه.

تقول Google إن RETVec موجود لإنقاذنا: "تم تدريب RETVec على مقاومة العمليات على مستوى الأحرف، بما في ذلك عمليات الإدراج والحذف والأخطاء المطبعية والأصوات المتجانسة وبدائل LEET والمزيد. يتم تدريب نماذج RETVec على برنامج تشفير أحرف جديد يقوم بتشفير جميع أحرف وكلمات UTF-8 بكفاءة. ونتيجة لذلك، لا يتطلب RETVec جداول بحث أو مفردات ثابتة ويعمل على أكثر من 100 لغة."

الكفاءة مهمة جدا. تعتبر الطرق الأخرى التي تستخدم "المفردات الثابتة" أو "جداول البحث" المتجانسة كثيفة الاستخدام للموارد في وقت التشغيل. فقط تخيل أنه لو تم استبدال حرف أو أكثر من "تهانينا" بأرقام أو رموز رياضية أو أحرف سيريلية أو عبرية أو رموز تعبيرية، فإن كل التهجئة والأخطاء الإملائية المحتملة ستظهر في قائمة لا نهاية لها تقريبًا. تقول Google إن RETVec يحتوي على 200000 معلمة فقط، "وليس الملايين"، لذلك في حين أن سحابة تصفية البريد العشوائي من Google قد تكون كبيرة بما يكفي لتشغيل أي شيء، إلا أنها صغيرة بما يكفي حتى للتشغيل على جهاز محلي. RETVec مفتوح المصدر، وتأمل Google أن تحرر العالم من هذا النوع من الهجمات المتماثلة في ترميزات مختلفة.

يبدو أن RETVec يعمل بشكل يشبه إلى حد كبير الطريقة التي يقرأ بها البشر: فهو نموذج TensorFlow للتعلم الآلي يستخدم "التشابه" البصري لتحديد معنى الكلمات، بدلاً من محتوى الأحرف الفعلي للكلمات. استخدم العرض التجريبي "للتشابه" من Google نفس التقنية للتعرف على صور القطط، لذا فإن تحويله إلى نظام التعرف البصري على الأحرف الأكثر تقدمًا في العالم يبدو ممكنًا.

من الواضح أن هذا النهج أدى إلى تحسينات كبيرة، حيث ذكرت Google أن "استبدال ناقل النص السابق في مصنف الرسائل غير المرغوب فيها في Gmail بـ RETVec أدى إلى تحسين معدل اكتشاف الرسائل غير المرغوب فيها بنسبة 38% فوق خط الأساس وتقليل النتائج الإيجابية الخاطئة بنسبة 19.4%. بالإضافة إلى ذلك، أدى استخدام RETVec إلى تقليل استخدام TPU للنموذج بنسبة 83%، مما يجعل نشر RETVec واحدًا من أكبر ترقيات الدفاع في السنوات الأخيرة."

قالت Google إنها "قامت باختبار RETVec داخليًا خلال العام الماضي وطرحته على حساب Gmail الخاص بك."