في يوم الثلاثاء بالتوقيت الشرقي، أصدرت شركة جوجل أحدث الخوارزمية التي انتشرت في دائرة التكنولوجيا في وادي السيليكون: خوارزمية ضغط الذاكرة فائقة الكفاءة المعتمدة على الذكاء الاصطناعي TurboQuant. تدعي Google أن هذه الخوارزمية يمكنها تقليل أثر ذاكرة التخزين المؤقت لنماذج اللغات الكبيرة بمقدار 6 مرات على الأقل وتحسين الأداء بمقدار 8 مرات دون فقدان الدقة. في جوهره، فهو يسمح للذكاء الاصطناعي بتذكر المزيد من المعلومات مع احتلال مساحة أقل من الذاكرة.



بمجرد إصدار هذه الخوارزمية، انخفضت أسهم الرقائق الأمريكية. بدأت Google وWall Street أيضًا مناقشة ساخنة: هل يمكن أن تنتهي كارثة النقص الحالي في شرائح الذاكرة التي يعاني منها العديد من عمالقة التكنولوجيا هنا؟

ما هو TurboQuant؟

أولاً، دعونا نتحدث عن ماهية خوارزمية TurboQuant بالضبط.

وفقًا لمقدمة Google على الموقع الرسمي، فإن TurboQuant هي طريقة ضغط يمكنها تقليل حجم النموذج بشكل كبير دون فقدان أي دقة، لذا فهي مناسبة جدًا لدعم ضغط ذاكرة التخزين المؤقت ذات القيمة الرئيسية (KV Cache) والبحث المتجه. ويتم ذلك من خلال خطوتين رئيسيتين:

1. الضغط عالي الجودة (طريقة PolarQuant): يقوم TurboQuant أولاً بتدوير ناقل البيانات بشكل عشوائي. تعمل هذه الخطوة الذكية على تبسيط هندسة البيانات، مما يجعل من السهل تطبيق مُكمِّم قياسي عالي الجودة على كل جزء من المتجه على حدة. تستخدم المرحلة الأولى معظم قوة الضغط (معظم البتات) للحفاظ على المفاهيم والميزات الرئيسية للمتجهات الأصلية.

2. القضاء على الأخطاء المخفية: يستخدم TurboQuant مقدارًا صغيرًا من قوة الضغط المتبقية (بت واحد فقط) لتطبيق خوارزمية QJL على الأخطاء الصغيرة المتبقية من المرحلة الأولى. تعمل مرحلة QJL بمثابة مدقق للأخطاء الرياضية، مما يزيل التحيز، مما يؤدي إلى الحصول على درجات انتباه أكثر دقة.

ببساطة، يقوم TurboQuant بشكل أساسي بضغط نموذج الذكاء الاصطناعي مع الحفاظ على البنية الأساسية لنموذج الذكاء الاصطناعي دون تغيير، ولا يتطلب معالجة مسبقة أو بيانات معايرة محددة.

تدعي Google أنها استخدمت نماذج سياق طويل مفتوحة المصدر (Gemma وMistral) لإجراء تقييم صارم للخوارزميات الثلاث TurboQuant وPolarQuant وKIVI في اختبارات قياس الأداء المتعددة بما في ذلك LongBench وNedle In A Haystack وZeroSCROLLS وRULER وL-Eval.

تظهر البيانات التجريبية أن TurboQuant يحقق أداء تسجيل مثالي من حيث تشويه المنتج النقطي واسترجاعه مع تقليل استخدام ذاكرة القيمة الرئيسية (KV).


يوضح الشكل أعلاه درجات الأداء الشاملة لخوارزميات خط الأساس TurboQuant وPollarQuant وKIVI في مهام مختلفة مثل الإجابة على الأسئلة وإنشاء التعليمات البرمجية والتلخيص.

تدعي Google أن TurboQuant حقق نتائج مثالية في جميع المعايير مع تقليل حجم ذاكرة القيمة الرئيسية بمقدار 6x على الأقل.

ويخططون لتقديم أبحاثهم في مؤتمر ICLR 2026 الشهر المقبل، بالإضافة إلى عرض طريقتين لتحقيق هذا الضغط: طريقة التكميم PolarQuant وطريقة التدريب والتحسين تسمى QJL.

هل تتمتع Google بلحظة DeepSeek الخاصة بها؟

تذكّر خوارزمية Google هذه الكثير من الأشخاص بالشركة الناشئة الخيالية Pied Piper في المسلسل التلفزيوني "Silicon Valley" الذي تنتجه شبكة HBO (تم بثه من عام 2014 إلى عام 2019). في المسلسل التلفزيوني، طور Pied Piper أيضًا خوارزمية ضغط مذهلة يمكنها تقليل حجم الملف بشكل كبير مع ضغط شبه بدون فقدان.


في الواقع، تلتزم تقنية TurboQuant التي أصدرها معهد أبحاث Google أيضًا بتحقيق الضغط النهائي دون فقدان الجودة، ولكنها يتم تطبيقها على عنق الزجاجة الأساسي لأنظمة الذكاء الاصطناعي.

حتى أن ماثيو برينس، الرئيس التنفيذي لشركة Cloudflare، وآخرون أطلقوا عليها اسم "لحظة DeepSeek من Google"، معتقدين أنه من المتوقع، مثل DeepSeek، تقليل تكاليف تشغيل الذكاء الاصطناعي بشكل كبير من خلال مكاسب كفاءة عالية للغاية مع الحفاظ على القدرة التنافسية من حيث النتائج.


وكتب في مقال عن X: "لا يزال لدى استدلال الذكاء الاصطناعي مجال كبير للتحسين من حيث السرعة واستخدام الذاكرة واستهلاك الطاقة واستخدامها".

هل ستبرد شريحة الذاكرة المطلوبة؟

يأتي إصدار خوارزمية Google في وقت أصبح فيه النقص العالمي في رقائق الذاكرة خطيرًا بشكل متزايد.

وبينما يعمل عمالقة العالم الكبار بجد لبناء البنية التحتية للذكاء الاصطناعي، يستمر الطلب على الذاكرة في الارتفاع، وسيكون من الصعب تخفيف النقص في العرض على المدى القصير. لقد توصل المطورون في شركات التكنولوجيا الكبرى إلى طرق مبتكرة متنوعة للتغلب على نقص الذاكرة أو على الأقل التعامل معه، ويعتبر الأشخاص العاملون في صناعة التكنولوجيا حاليًا TurboQuant من Google حلاً مستدامًا للطلب على الذاكرة الباردة.

يعد هذا التوقع أمرًا جيدًا بطبيعة الحال بالنسبة لعمالقة التكنولوجيا الملتزمين ببناء البنية التحتية للذكاء الاصطناعي. ولكن بالنسبة لمصنعي شرائح الذاكرة، قد تكون النتائج مختلفة.

متأثرًا بالتوقعات بأن الطلب على الذاكرة قد يهدأ، انخفض قطاع رقائق الذاكرة الأمريكي بشكل جماعي بعد وقت قصير من افتتاح التداول يوم الأربعاء بالتوقيت الشرقي: انخفض سهم SanDisk بنسبة 6.5%، وانخفض سهم Micron Technology بنسبة 4%، وانخفض سهم Western Digital بأكثر من 4%، وانخفض سهم Seagate Technology بأكثر من 5%.

انخفض سهم SanDisk بشكل حاد في التعاملات المبكرة يوم الأربعاء
انخفض سهم SanDisk بشكل حاد في التعاملات المبكرة يوم الأربعاء

خلال الجلسة الآسيوية يوم الخميس، انخفض سهم SK Hynix بنسبة 4.42% وانخفض سهم Samsung بنسبة 3.02% حتى وقت كتابة المقالة.

يدعي شاي بولوور من شركة Futurum Equity Research:

"يرى السوق أن هذا بمثابة رياح معاكسة محتملة لمخزونات الذاكرة، حيث أن الذاكرة التي قد يتطلبها استنتاج الذكاء الاصطناعي طويل السياق لكل حمل عمل قد تنخفض بشكل كبير الآن."

ويطرح دامو وجهة النظر المعاكسة

ومع ذلك، أعرب بعض عمالقة وول ستريت عن وجهة نظر معاكسة.

على سبيل المثال، اقترح كيه سي راجكومار، محلل Lynx Equity Strategies، أن تقنية TurboQuant قد لا تكون "مدمرة" كما تصفها وسائل الإعلام.

وقال إن ما يسمى بـ "تحسين الأداء 8x" من Google يعتمد على المقارنة مع الطراز القديم 32 بت. ومع ذلك، فإن نموذج الاستدلال الحالي يستخدم على نطاق واسع البيانات الكمية ذات 4 بت، وبالتالي فإن تحسين الأداء ليس مبالغًا فيه.

بالإضافة إلى ذلك، أشار مورجان ستانلي أيضًا إلى أن تقنية Google TurboQuant تعمل فقط على ذاكرة التخزين المؤقت للقيمة الرئيسية في مرحلة الاستدلال، ولا تؤثر على HBM الذي يشغله وزن النموذج، ولا علاقة لها بمهمة التدريب.

لذا، لا يعني ذلك انخفاضًا بمقدار 6x في إجمالي متطلبات التخزين أو إجمالي الأجهزة، بل زيادة في إنتاجية وحدة معالجة الرسومات المفردة من خلال مكاسب الكفاءة - يمكن أن تدعم نفس الأجهزة سياقات أطول من 4x إلى 8x، أو زيادة كبيرة في حجم الدفعة دون التسبب في تجاوز سعة الذاكرة.

والأهم من ذلك، أن مورجان ستانلي استشهد أيضًا بـ "مفارقة جيفونز" لشرح الحكم بأن الطلب على الذاكرة لن يهدأ.

مفارقة جيفونز هي مفهوم مهم في الاقتصاد، والذي يشير إلى علاقة غير بديهية بين التقدم التكنولوجي واستهلاك الموارد. التعريف هو: عندما يؤدي التقدم التكنولوجي إلى تحسين الكفاءة، فإن استهلاك الموارد لا ينخفض ​​فحسب، بل يزداد أيضًا. على سبيل المثال، سمح محرك وات البخاري المحسن بحرق الفحم بشكل أكثر كفاءة، ولكن النتيجة كانت زيادة في الطلب على الفحم.

ويعتقد مورغان ستانلي أنه من خلال خفض تكلفة الخدمة بشكل كبير لاستعلام واحد، يمكن لـ TurboQuant ترحيل النماذج التي لا يمكن تشغيلها إلا على مجموعات باهظة الثمن في السحابة إلى المحلية، مما يخفض بشكل فعال عتبة النشر على نطاق واسع للذكاء الاصطناعي، مما قد يعزز الطلب الإجمالي.

في الواقع، يعد DeepSeek، الذي ذكره الرئيس التنفيذي لشركة Cloudflare ماثيو برينس وآخرون، المثال الأكثر وضوحًا على مفارقة جيفونز: عندما تم إصدار DeepSeek في أوائل العام الماضي، كان السوق قلقًا من انخفاض الطلب على أجهزة الذكاء الاصطناعي. ولكن الحقيقة هي أن تحسين الكفاءة أدى إلى زيادة تعميم تطبيقات الذكاء الاصطناعي، كما زاد الطلب على أجهزة الذكاء الاصطناعي مرة أخرى.