نجح مطور Windows الأساسي السابق Dave Plummer في تشغيل نموذج Transformer على جهاز كمبيوتر PDP-11/44 عمره 47 عامًا وأكمل تدريب الذكاء الاصطناعي باستخدام وحدة المعالجة المركزية بسرعة 6 ميجا هرتز وذاكرة 64 كيلو بايت.يُطلق على النموذج الذي يتم تشغيله بواسطة PDP-11 اسم ATTN-11، وقد كتبه Damien Boureille بلغة التجميع PDP-11، لتنفيذ محول أحادي الطبقة أحادي الرأس، يحتوي على 1216 معلمة فقط.

تبدو مهمة النموذج بسيطة، وهي إدخال سلسلة من الأرقام وإخراج النتيجة المعكوسة.ولكن لإكمال هذه المهمة، يجب على النموذج أن يتعلم بشكل مستقل القواعد الهيكلية لعكس التسلسل. يعتقد بلامر أن هذا يجسد تمامًا جوهر عمل النماذج الكبيرة الحديثة مثل ChatGPT.

من أجل التشغيل على أجهزة محدودة للغاية، قامت ATTN-11 بإجراء الكثير من التحسينات القصوى. يتم قطع دقة النشر الأمامي إلى أرقام نقاط ثابتة ذات 8 بت، ويتم تحسين كل دورة لوحدة المعالجة المركزية.

أخيرًا، استخدم بلامر لوحة ذاكرة التخزين المؤقت للقيام بذلكوبعد حوالي 350 خطوة تدريب، وصل النموذج إلى دقة 100%، واستغرقت العملية برمتها حوالي 3.5 دقيقة.

يصف بلامر عملية التدريب في الفيديو:"يبدأ النموذج غبيًا، بخسائر كبيرة، ثم في مرحلة ما، تبدأ الأوزان في التقارب، وتكتشف آلية الانتباه رسم الخرائط الانعكاسي، وتعبر الآلة هذا الخط غير المرئي من التخمين إلى المعرفة."

نقطته الأساسية هي أن جوهر الذكاء الاصطناعي الحديث ليس قوة غامضة، ولكن "الجهاز يقوم بشكل متكرر بتحديث قوة الآلاف من الاتصالات الموزونة، مما يجعل الإجابة التالية أقل خطأ قليلاً من المرة الأخيرة."

وأشار بلامر أخيرًا إلى أنه نظرًا لأن موارد الحوسبة أصبحت عنق الزجاجة بشكل متزايد، فإن الشركات التي يمكنها العودة إلى السعي النهائي لتحقيق الكفاءة والتحسين ستتمتع بميزة أكبر في منافسة الذكاء الاصطناعي المستقبلية.