يقدم CSAIL التابع لمعهد ماساتشوستس للتكنولوجيا PFGM++، وهو نموذج ذكاء اصطناعي يجمع بين عمليات النشر وعمليات بواسون. إنه يولد صورًا رائعة من خلال تكرار سلوك المجالات الكهربائية ويمثل قفزة إلى الأمام في الذكاء الاصطناعي التوليدي. يتفوق النموذج التوليدي الجديد PFGM++، المستوحى من الفيزياء، على نماذج الانتشار في توليد الصور. الذكاء الاصطناعي التوليدي هو حاليًا على أعتاب موضوع ساخن، حيث يعد بخلق عالم تتطور فيه التوزيعات البسيطة إلى أنماط معقدة من الصور أو الأصوات أو النصوص، مما يجعل الذكاء الاصطناعي حقيقيًا بشكل مذهل.
بينما يقوم الباحثون في مختبر علوم الكمبيوتر والذكاء الاصطناعي (CSAIL) التابع لمعهد ماساتشوستس للتكنولوجيا (MIT) بإحضار نماذج الذكاء الاصطناعي المبتكرة إلى الحياة، فإن عالم الخيال لم يعد مجرد مفهوم مجرد. تدمج تقنيتهم الجديدة قانونين فيزيائيين غير مرتبطين على ما يبدو، ويشكلان أساس أفضل النماذج التوليدية حتى الآن: الانتشار (الذي يفسر عادة الحركة العشوائية للعناصر، مثل الحرارة التي تتخلل الغرفة أو الغاز المتوسع في الفضاء) وعمليات بواسون (بالاعتماد على المبادئ التي تحكم نشاط الشحنات الكهربائية).
يسمح هذا المزيج المتناغم لـ Ezoic بالتفوق في إنشاء صور جديدة، متجاوزة النماذج الحديثة الحالية. منذ إنشائه، وجد نموذج Poisson Flow Geneative Model++ (PFGM++) تطبيقات محتملة في مجالات تتراوح من توليد الأجسام المضادة وتسلسل الحمض النووي الريبي (RNA) إلى إنتاج الصوت وتوليد الرسومات.
يمكن للنموذج توليد أنماط معقدة، مثل إنشاء صور واقعية أو تقليد عمليات العالم الحقيقي. يعتمد PFGM++ على PFGM الخاص بالفريق، والذي كان نتيجة بحث العام الماضي. يستمد PFGM إلهامه من معادلة رياضية تعرف باسم معادلة "بواسون" ثم يطبقها على البيانات التي يحاول النموذج تعلمها. وللقيام بذلك، استخدم الفريق خدعة ذكية: فقد أضافوا بُعدًا إضافيًا إلى "مساحة" النموذج، تمامًا مثل الانتقال من رسم ثنائي الأبعاد إلى نموذج ثلاثي الأبعاد. يوفر هذا البعد الإضافي مساحة أكبر للعمل، ويضع البيانات في سياق أكبر، ويساعد الشخص على التعامل مع البيانات من جميع الاتجاهات عند إنشاء عينات جديدة.
قال جيسي ثالر، عالم فيزياء الجسيمات النظرية في مركز الفيزياء النظرية في مختبر العلوم النووية بمعهد ماساتشوستس للتكنولوجيا ومدير معهد الذكاء الاصطناعي والتفاعلات الأساسية التابع لمؤسسة العلوم الوطنية (NSFAIIAIFI): "يعد PFGM++ مثالًا للتعاون متعدد التخصصات بين الفيزيائيين وعلماء الكمبيوتر لتعزيز تقدم الذكاء الاصطناعي. في السنوات الأخيرة، أنتجت النماذج التوليدية المعتمدة على الذكاء الاصطناعي نتائج لا نهاية لها، بدءًا من الصور الواقعية وحتى تدفقات النصوص الواضحة". النتائج مذهلة، ومن الجدير بالذكر أن بعض أقوى النماذج التوليدية تعتمد على مفاهيم تم اختبارها عبر الزمن في الفيزياء، مثل التناظر والديناميكا الحرارية. ويأخذ PFGM++ مفهومًا عمره قرن من الفيزياء الأساسية - وهو أنه قد تكون هناك أبعاد إضافية في المكان والزمان - ويحوله إلى أداة قوية وقوية لتوليد مجموعات بيانات اصطناعية ولكنها حقيقية.
الآلية الأساسية لـ PFGM ليست معقدة كما تبدو. ويشبه الباحثون نقاط البيانات بالشحنات الصغيرة الموجودة على متن طائرة في عالم موسع الأبعاد. تخلق هذه الشحنات "مجالًا كهربائيًا" يتحرك لأعلى خطوط المجال إلى بُعد إضافي، مما يخلق توزيعًا موحدًا على نصف الكرة الخيالي العملاق. تشبه عملية التوليد إعادة اللف: بدءًا بمجموعة من الشحنات الموزعة بشكل موحد عبر نصف الكرة الأرضية وتتبع تقدمها إلى المستوى على طول خطوط المجال الكهربائي، فإنها تصطف بحيث تتطابق مع توزيع البيانات الأصلية. تسمح هذه العملية المثيرة للاهتمام للنماذج العصبية بتعلم المجالات الكهربائية وتوليد بيانات جديدة تتوافق مع البيانات الأصلية.
يعمل نموذج PFGM++ على توسيع المجال الكهربائي في PFGM إلى إطار معقد عالي الأبعاد. مع استمرارك في توسيع هذه الأبعاد، يحدث شيء غير متوقع - يبدأ النموذج في التشابه مع فئة مهمة أخرى من النماذج، وهي نماذج الانتشار. الوظيفة تدور حول إيجاد التوازن الصحيح. تقع نماذج PFGM ونماذج الانتشار على طرفي نقيض من الطيف: أحدهما قوي ولكنه معقد في التعامل معه، والآخر بسيط ولكنه أقل قوة. يجد نموذج PFGM++ التوازن الصحيح بين المتانة وسهولة الاستخدام. يمهد هذا الابتكار الطريق لتوليد صور وأنماط أكثر كفاءة، مما يمثل خطوة مهمة للأمام في مجال التكنولوجيا. بالإضافة إلى كونها قابلة للضبط من حيث الحجم، اقترح الباحثون أيضًا طريقة تدريب جديدة يمكنها تعلم المجالات الكهربائية بكفاءة أكبر.
ولوضع هذه النظرية موضع التنفيذ، قام الفريق بحل زوج من المعادلات التفاضلية التي توضح بالتفصيل حركة هذه الشحنات في المجال الكهربائي. وقاموا بتقييم أدائها باستخدام درجة مسافة بداية فريشيت (FID)، وهو مقياس مقبول على نطاق واسع لتقييم جودة الصور الناتجة عن النموذج مقارنة بالصور الحقيقية. يُظهر PFGM++ أيضًا قدرًا أكبر من التسامح مع الأخطاء ومتانة أحجام الخطوات في المعادلات التفاضلية.
من الآن فصاعدا، يهدفون إلى تحسين جوانب معينة من النموذج، لا سيما من خلال تحليل سلوك خطأ التقدير للشبكات العصبية لتحديد قيم "النقطة المثالية" لـ D المصممة خصيصًا لبيانات ومعماريات ومهام محددة بشكل منهجي. إنهم يخططون أيضًا لتطبيق PFGM++ على إنشاء تحويل النص إلى صورة/نص إلى فيديو على نطاق واسع.
وقال يانغ سونغ، عالم الأبحاث في OpenAI: "أصبحت نماذج الانتشار قوة دافعة مهمة وراء ثورة الذكاء الاصطناعي التوليدي". "يوفر PFGM++ تعميمًا قويًا لنماذج الانتشار، مما يسمح للمستخدمين بتوليد صور ذات جودة أعلى من خلال تحسين قوة توليد الصور للاضطرابات وأخطاء التعلم. بالإضافة إلى ذلك، اكتشف PFGM++ اتصالات مذهلة بين الكهرباء الساكنة ونماذج الانتشار، مما يوفر رؤى نظرية جديدة لأبحاث نماذج الانتشار."
قال كارستن كريس، كبير علماء الأبحاث في NVIDIA: "لا تعتمد نماذج تدفق بواسون التوليدية على تركيبات إرشادية فيزيائية أنيقة تعتمد على الكهرباء الساكنة فحسب، بل توفر أيضًا أداءً متطورًا للنموذج التوليدي في الممارسة العملية. حتى أنها تتفوق في الأداء على نماذج الانتشار الشائعة التي تهيمن حاليًا على الأدبيات."