أطلق باحثو NVIDIA تقنية جديدة، KVTC (KV Cache Transformation Coding)، والتي يمكنها تقليل استخدام الذاكرة لنماذج اللغات الكبيرة (LLM) لتتبع سجل المحادثات بما يصل إلى 20 مرة دون تعديل النموذج نفسه.ومن المتوقع أن يحل هذا الاختراق مشكلة عدم كفاية الذاكرة أثناء التفكير في المحادثة الطويلة في نماذج اللغة الكبيرة.إنه يقلل بشكل كبير من تكاليف الأجهزة التي تتحملها المؤسسات لاستخدام الذكاء الاصطناعي، بينما يعمل أيضًا على تسريع الوقت الذي يستغرقه النموذج لإنشاء استجابة لأول مرة بما يصل إلى 8 مرات.

ببساطة،جوهر تقنية KVTC هو ذاكرة التخزين المؤقت KV التي تكمن وراء ضغط نماذج اللغات الكبيرة - وهي تعادل "الذاكرة قصيرة المدى" لنموذج الذكاء الاصطناعي.. يمكننا أن نفكر في ذاكرة التخزين المؤقت KV كطلاب يقومون بتدوين الملاحظات: عندما يقوم النموذج بمعالجة الحوار، فإنه سيكتب المعلومات الأساسية (أي المفتاح والقيمة). في المرة التالية التي يتم فيها إنشاء استجابة، ليست هناك حاجة لإعادة حساب الحوار بأكمله من الصفر، ويمكن تحسين سرعة الاستجابة بشكل كبير.
لكن المشكلة هي أنه كلما طالت المحادثة، كلما كانت "الملاحظة" أكبر، وسوف تتوسع حتى إلى عدة غيغابايت، وتحتل الكثير من ذاكرة GPU، مما سيؤدي إلى إبطاء النموذج والحد من قدرات المعالجة الخاصة به.
وقال أدريان لانكوكي، أحد كبار مهندسي التعلم العميق في NVIDIA: "عند استنتاج نماذج لغة كبيرة، غالبًا ما لا يكون عنق الزجاجة في الأداء في قوة الحوسبة، ولكن في ذاكرة وحدة معالجة الرسومات." ستشغل ذاكرات التخزين المؤقت KV غير المستخدمة مؤقتًا دائمًا موارد GPU الثمينة، مما يجبر النظام على نقلها إلى ذاكرة وحدة المعالجة المركزية أو القرص الصلب. لن يؤدي هذا إلى زيادة عبء نقل البيانات فحسب، بل قد يتسبب أيضًا في حدوث مشكلات تأخر جديدة. سوف تنعكس هذه التكاليف الإضافية في نهاية المطاف في رسوم الاستخدام الخاصة بالمؤسسة.
بالمقارنة مع تكنولوجيا الضغط الحالية، لا يوجد لدى KVTC قيود واضحة. إنه يعتمد على فكرة ضغط الصور JPEG المألوفة ويمكنه تحقيق ضغط فعال من خلال ثلاث خطوات بسيطة هي "تحليل المكونات الرئيسية، والتكميم التكيفي، والتشفير الإنتروبي".
والأكثر ملاءمة هو أن هذه التقنية لا تتطلب تغييرات في الإعدادات الأساسية ورمز النموذج. إنه تصميم "غير تدخلي" ويمكن للشركات نشره بسرعة. وتتمثل ميزته الأساسية في أنه يمكنه التقاط خصائص "البيانات ذات الصلة للغاية" لذاكرة التخزين المؤقت KV، وإزالة البيانات الزائدة مع الاحتفاظ بالمعلومات الأساسية، وفك ضغطها في كتل وطبقة تلو الأخرى دون التأثير على الاستجابة في الوقت الفعلي للنموذج.
وقد أظهرت جولات متعددة من الاختبارات ذلكأداء KVTC يتجاوز بكثير الأساليب السائدة الحالية. في مجموعة متنوعة من النماذج ذات المعلمات التي تتراوح من 1.5 مليار إلى 70 مليار (بما في ذلك سلسلة Llama 3، وR1-Qwen 2.5، وما إلى ذلك)، حتى لو تم ضغط الذاكرة 20 مرة، فإن دقة النموذج لا تتأثر تقريبًا، مع خسارة أقل من 1%، وهي تقريبًا نفس النسبة بدون ضغط.; ومع ذلك، إذا تم الضغط بطريقة الضغط التقليدية 5 مرات فقط، فسيكون هناك انخفاض كبير في الدقة.
فضلاً عن ذلك،عند معالجة 8000 رسالة رمزية على وحدة معالجة الرسومات H100، يستغرق الأمر 3 ثوانٍ لإنشاء الاستجابة الأولى دون استخدام KVTC، و380 مللي ثانية فقط بعد استخدامه، وهو أسرع 8 مرات كاملة.
تجدر الإشارة إلى أن KVTC أكثر ملاءمة للحوارات الطويلة وسيناريوهات التفاعل متعدد الجولات، مثل مساعدي البرمجة، واستدلال الوكيل التكراري، وما إلى ذلك. إذا كان الحوار قصيرًا، فمن الصعب ممارسة قيمة الضغط الخاصة به.
حاليًا، تخطط NVIDIA لدمج هذه التقنية في مدير كتلة KV لإطار عمل Dynamo، مما يجعلها متوافقة مع محركات الاستدلال الرئيسية مفتوحة المصدر مثل vLLM.
يعتقد المطلعون على الصناعة أنه مع استمرار زيادة طول المحادثة التي يمكن لنماذج اللغات الكبيرة التعامل معها، قد تصبح تقنيات الضغط القياسية مثل KVTC شائعة مثل ضغط الفيديو في المستقبل، مما يساعد على تطبيق الذكاء الاصطناعي على نطاق أوسع.