نشر عالم أبحاث OpenAI تشين بويوان مقالًا عن Zhihu، والذي يبدأ بشكل مباشر جدًا:"مرحبًا بالجميع، أنا تشين بويوان، عالم أبحاث في فريق صور GPT. كان نموذج توليد الصور GPT الذي تم إصداره الأسبوع الماضي هو تدريبي الرئيسي!"وذكر أيضًا أن العرض الصيني للنموذج تم إصلاحه أخيرًا هذه المرة. إذا كان لدى المستخدمين الصينيين أي تعليقات، يمكنك الرد عليها مباشرة.

بعد إصدار ChatGPT Images 2.0، كان أول رد فعل للعديد من الأشخاص هو:القدرة الصينية لهذا النموذج غير معقولة بعض الشيء.

كانت نماذج الصور في الماضي "غير مفهومة" إلى حد ما. يمكنهم رسم مناظر طبيعية وأشكال، ولكن بمجرد مشاركة الأحرف الصينية، يمكن أن يتحولوا بسهولة إلى فوضى لا يمكن فك شفرتها من الرموز الشبحية. لكن GPT-image-2 مختلفة. لا يمكنه كتابة الكلمات الصحيحة فحسب، بل يمكنه أيضًا التنضيد والتقسيم وإنشاء رسومات المعلومات الصينية ذات البنية المنطقية.

الطريقة القديمة المتمثلة في "النظر إلى النص لتحديد ما إذا كان قد تم إنشاؤه بواسطة الذكاء الاصطناعي" لم تعد تعمل في هذا الجيل.


يعد Chen Boyuan أحد الأشخاص الذين وقفوا حقًا في مكتب الاستقبال في تدريب GPT Image 2 وإظهار القدرات. في المؤتمر الصحفي، أظهر هو وألترامان قدرات عرض النص. بعد الإصدار، شرح العديد من الحكايات وراء صور الموقع الرسمي على Zhihu: أثناء الاختبار المزدوج التعمية لـ LMArena، استخدمت GPT Image 2 "الشريط اللاصق" كاسم رمزي؛ قام بالتقاط العديد من الصور على مدونة الموقع الرسمي لعارضات الأزياء؛ القصص المصورة الصينية، ونقوش حبوب الأرز، والنصوص متعددة اللغات، والبراهين البصرية، ورموز QR التي يتم إنشاؤها تلقائيًا. هذه الصور التي تبدو وكأنها مواد ترويجية، هي في الواقع مصممة لاختبار القدرات مرارًا وتكرارًا.

لقد استخدم تفسيرًا مثيرًا للاهتمام لهذا الشريط اللاصق:

"أما بالنسبة لسبب تسميته بالشريط اللاصق... فبالطبع لأنه يمكنك استخدام الشريط اللاصق للصق الموز على الحائط!"


01

إنه يسأل سؤالاً أبطأ

تشن بويوان ليس من نوع الباحثين الذين يمكن تذكرهم في لمحة. لا يوجد خطاب متكرر أمام الجمهور ولا إدارة متعمدة للتعبير الشخصي. فهو يكتب مدونات وينشر محتوى خفيفًا، لكنها أشبه بالسجلات أكثر من كونها بناء التأثير.

في المقابل، حضوره يأتي أكثر من النموذج نفسه.


وهو الآن باحث في OpenAI، ويشارك في تدريب نماذج الصور. وقبل ذلك، حصل على درجة الدكتوراه في الهندسة الكهربائية وعلوم الكمبيوتر من معهد ماساتشوستس للتكنولوجيا مع تخصص فرعي في الفلسفة. كما شارك في أبحاث النماذج متعددة الوسائط في Google DeepMind.

هذه التجارب لافتة للنظر بما فيه الكفاية، ولكن الأهم من ذلك هو مخاوفه على المدى الطويل.

من DeepMind إلى OpenAI، لم يتغير اتجاه بحث تشين بويوان كثيرًا. عندما لا يزال معظم الناس يناقشون ما إذا كان من الممكن كتابة النموذج بشكل أفضل ورسمه بشكل أقرب، فإنهم يشعرون بالقلق إزاء مستوى أكثر أساسية: ما هو "فهم" النموذج.

على وجه التحديد، يمكن النظر إليها على أنها ثلاثة أسئلة: كيف يفهم النموذج الصورة؟ ما العلاقة بين الصورة واللغة؟ عندما يواجه النموذج العالم الحقيقي، هل يولد نتائج أم يحاكي العالم؟

تبدو هذه الأسئلة مجردة، لكنها تحدد إلى حد كبير حدود جيل النماذج الحالي.

يكتب على صفحته الرئيسية الشخصية عن اتجاه بحثه بشكل مباشر للغاية:النماذج العالمية والذكاء المتجسد والتعلم المعزز.

يمكن فهم ما يسمى بالنموذج العالمي على أنه شيء واحد: السماح للذكاء الاصطناعي بتكوين حكم حول العالم داخليًا.

لا يجب أن يعرف فقط ما يحدث أمامك، بل يجب أيضًا أن يكون قادرًا على التنبؤ بما سيحدث بعد ذلك.

وهذا يختلف قليلاً عن LLM (نموذج اللغة الكبير) الشائع اليوم. LLM أشبه بلغة المعالجة، في حين أن النموذج العالمي أقرب إلى البنية: فهو يحتاج إلى فهم المكان والزمان والسبب والنتيجة ونتائج السلوك.

لنستخدم مثالًا بسيطًا للغاية، إذا كان الذكاء الاصطناعي "يفهم" العالم حقًا، فيجب أن يعرف أن الكوب البلاستيكي سوف يرتد عندما يسقط على الأرض، بينما ينكسر الكوب الزجاجي.

يمكن فهم الذكاء المتجسد والتعلم المعزز كامتداد لهذه المشكلة - إذا كان النموذج يفهم العالم حقًا، فلا ينبغي له أن يجيب على الأسئلة فحسب، بل يجب أيضًا أن يكون قادرًا على التصرف ومراجعة حكمه باستمرار أثناء العمل.

غالبًا ما لا يكون العمل الذي يشارك فيه تحسينًا لمهمة واحدة، ولكنه محاولة لربط النماذج التوليدية والفهم البصري وأنظمة اتخاذ القرار معًا.


واحدة من أعماله الأكثر تمثيلاً هي دراسة تسمى Diffusion Forcing.

يحاول هذا البحث حل سؤال أساسي للغاية: هل يتم إنشاء النموذج خطوة بخطوة أم يتم إنشاؤه دفعة واحدة؟

LLM هو الأول، وهو جيد في التوليد المرن، ولكنه عرضة للأخطاء في المحتوى الطويل؛ نموذج الانتشار أقرب إلى الأخير، وهو أكثر استقرارًا ولكنه يفتقر إلى البنية.

يتمثل نهج تشين بويوان في وضع هاتين الطريقتين في نفس النموذج، بحيث يمكن إنشاء النموذج تدريجيًا وتقييده بالكامل.

إذا كان Diffusion Forcing يدور حول التوحيد في البعد الزمني، فإن SpatialVLM، وهو عمل آخر شارك فيه، يدور حول استكمال القدرات في البعد المكاني.

يعالج هذا العمل مشكلة طويلة الأمد: على الرغم من أن النموذج يمكنه النظر إلى الصور والتحدث، إلا أنه لا يفهم العلاقات المكانية حقًا. ولا يعرف المسافة أو الحجم أو المواضع النسبية للأشياء.

ومن أجل حل هذه المشكلة، قام فريقه ببناء نظام تفكير مكاني ثلاثي الأبعاد بحيث لا يتمكن النموذج من "الرؤية" فحسب، بل "الاستدلال" أيضًا.

كما ظهرت أفكار مماثلة في أعمال أخرى، مثل الطريقة الموجهة بالتاريخ والتي تستخدم المعلومات التاريخية لتوجيه الجيل، أو البحث في النمذجة الموحدة للرؤية والعمل واللغة. قد تبدو هذه الجهود مشتتة، لكنها جميعًا تشير إلى نفس الاتجاه: جعل النموذج لا ينتج نتائج فحسب، بل يشكل تمثيلًا مستقرًا داخليًا.

بالإضافة إلى اتجاهه البحثي الجاد، يكشف تشين بويوان أيضًا أحيانًا عن اهتمام شخصي حيوي للغاية.

على سبيل المثال، هذه المرة نشر مقالًا عن Zhihu، وعلى سبيل المثال، قدم على صفحته الرئيسية الشخصية على وجه التحديد أن اهتمامه هو صنع البوبا، وحتى اسمه على Zhihu هو "مدير متجر شاي الحليب في معهد ماساتشوستس للتكنولوجيا".


كما كتب أيضًا مدونة لتصنيف أفضل كليات علوم الكمبيوتر في الولايات المتحدة. لم يكن المعيار هو قوة البحث العلمي، بل كان الشاي بالحليب الفقاعي.

لقد صنف بيركلي في المرتبة الأولى لأن الحرم الجامعي "محاط تقريبًا بمتاجر شاي الحليب عالية الجودة"، بينما حصل معهد ماساتشوستس للتكنولوجيا على درجة منخفضة لأن "هناك عدد قليل جدًا من محلات شاي الحليب القريبة والجودة غير مستقرة".


هذا النوع من التعبير مريح للغاية، ولكن يمكن ملاحظة أن عاداته البحثية هي: تفكيك المشكلات المعقدة، والعثور على أبعاد قابلة للمقارنة، ومن ثم إصدار الأحكام.

عمله نفسه يقوم بشيء مماثل، ولكن يتم استبدال الكائن بنموذج.

02

لقد تجنب الاتجاه الأسهل

إذا نظرت فقط إلى مسار تطوير نماذج الصور، فإن المنطق في الماضي واضح جدًا في الواقع: بيانات أكبر، ودقة أعلى، وعملية إنشاء أكثر استقرارًا. تركز معظم التحسينات على "رسم المزيد من الإعجاب".

ولكن عندما يبدأ النموذج في معالجة محتوى أكثر تعقيدًا، يصل هذا المسار أيضًا إلى عنق الزجاجة: عندما لا تحتوي الصورة على عناصر مرئية فحسب، بل تحتوي أيضًا على نص وبنية وحتى علاقات منطقية، لم يعد السؤال مجرد إعجاب أو عدم إعجاب، ولكن كيف يتم إنشاء هذه المعلومات في نفس الوقت.

وتنتقل القضية من جودة الإنتاج إلى الاتساق الهيكلي.

لن يقوم جميع الباحثين بحل هذا النوع من المشاكل. ولا يتوافق بشكل مباشر مع مؤشر تقييم معين، ومن الصعب ترجمته إلى تأثيرات المنتج على المدى القصير. في المقابل، غالبًا ما يكون من الأسهل رؤية التحسينات عند العمل على الدقة والأسلوب والتفاصيل.

حدث مسار تشين بويوان لتجنب تلك الاتجاهات "الأسهل": منذ بداية بحثه في المرحلة الأكاديمية، لم يكن تركيزه على القدرات أحادية الشكل، ولكن على كيفية ربط القدرات المختلفة معًا.

لفترة طويلة، تطورت النماذج المرئية ونماذج اللغة وأنظمة اتخاذ القرار بشكل مستقل. ويمكن توصيلها عبر واجهات، ولكنها غالبًا ما تكون منفصلة داخليًا. ولذلك، على الرغم من أن النموذج يمكن أن "يستدعي القدرات"، فمن الصعب إظهار فهم متسق.

عمل تشين بويوان هو محاولة تغيير هذا الوضع.

تم عرض العديد من قدرات النموذج هذه المرة عند تقاطع "الصور والنصوص والميمات والأشياء الحقيقية والسياق الثقافي".

قال تشين بويوان إن العديد من الصور الموجودة على المدونة الرسمية هي من صنعه. يتم إنشاء المدونة بأكملها باستخدام الصور، بدون نص عادي على الإطلاق. بمعنى آخر، العديد من الأمثلة التي يراها المستخدمون على الموقع الرسمي ليست مجرد مواد ترويجية، ولكنها جزء من قدرات النموذج نفسها.

على سبيل المثال، تلك الرسوم الهزلية لبيضة عيد الفصح الصينية.

لقد أراد أن يصنع رسمًا كاريكاتوريًا مضحكًا للغاية، لذلك استخدم "ساق الصيد" و"ساق الموز". من أجل إظهار قدرته على الكتابة، طلب من العارضة بشكل خاص إضافة نص بلغات متعددة إلى الصورة، كما أنشأ أحرفًا صينية صغيرة جدًا في الركن الأيمن السفلي من ملصق مسقط رأسه لاختبار مدى دقة التفاصيل التي يمكن للعارضة التعامل معها.

والأهم من ذلك، أن هذه الصورة ليست مقسمة - ووفقا له، يتم إنشاء الصورة بأكملها، بما في ذلك صورة داخل صورة وصورة داخل صورة داخل صورة، مرة واحدة. لقد كان قلقًا من أن يظن الناس أنها صورة مقسمة، لذا تعمد إضافة ملاحظة في أسفل الصورة.

وهذا يوضح فقط صعوبة صورة GPT 2. إذا كان نموذج الصورة القديم يمكنه كتابة بضعة أحرف كبيرة دون ارتكاب أخطاء، فسيتم اعتباره جيدًا جدًا. لكن يجب على GPT Image 2 التعامل مع مجموعة كاملة من المستويات: يجب أن تعرف أن هذه صورة كتاب هزلي، وهناك صور في الكتاب الهزلي، وهناك صور في الصور؛ فهو يحتاج إلى وضع نص بلغات مختلفة وفي مستويات مختلفة؛ كما يحتاج أيضًا إلى إثبات العلاقة بين هذه الكلمات والصورة، بدلاً من أن تكون متناثرة بشكل عشوائي في الصورة.

مثال آخر هو نقش حبوب الأرز.

قال تشين بويوان إنه شعر في البداية أن عرض النص العادي لم يكن مذهلاً بما فيه الكفاية، لذلك قام بالتقاط صورة بدقة 4K بعد أن طلب منه زملاؤه في الفريق: أظهرت الصورة كومة من حبات الأرز، إحداها محفور عليها كلمات.


يختبر هذا قدرة النموذج على التحكم في النص بمقاييس صغيرة للغاية.

وهذا دليل مرئي على السبورة.

قال تشين بويوان: "يبدو الأمر بسيطًا جدًا إذا طلبت منه حل معادلات رياضية عادية وما شابه ذلك. يبدو أن نانو مونا قادر على حل ذلك من خلال وضع التفكير + عرض النص. لذلك فكرت في دليل مرئي أحبه كثيرًا لاختبار صورة GPT 2. تأثير التفكير البصري الفريد. الموجه في الصورة هو استخدام الرؤية (بدلاً من الجبر) على السبورة لإثبات أن مجموع الأعداد الفردية التي تبدأ من 1 هو مربع. من السهل في الواقع التفكير في الأمر الحل الجبري، ولكن الحل الرسومي لا يمكن أن يتم إلا مع النموذج البصري ".

يعد هذا أيضًا أحد أبرز التغييرات في إصدار GPT Image 2: حيث يمكنه البدء في تحويل علاقة مجردة إلى بنية صورة، ثم التعبير عن هذه البنية بصريًا.


لذلك، بدلًا من القول بأن GPT Image 2 هي "تنتج صورًا"، فمن الأفضل أن نقول إنها تولد تعبيرًا مرئيًا ذو بنية.

القصص المصورة، والملصقات، والأدلة البصرية... لا شيء من هذه الأشياء عبارة عن صور بحتة في الطبيعة. أنها تحتوي أيضًا على النص والطباعة والتسلسل الهرمي وعلاقات الكائنات وأهداف المهمة والأحكام الجمالية.

تميل نماذج الصور السابقة إلى الانهيار هنا لأنها تتعامل مع الصور كنتائج بكسل. يجب على هذا الجيل من نماذج الصور الأقوى أن يتعامل مع الصور باعتبارها تعبيرًا منظمًا.

03

فهو ليس وحده

داخل OpenAI، لا يوجد الكثير من الأشخاص المشاركين فعليًا في التدريب النموذجي. بعد إصدار GPT-image-2، شكر قائد البحث غابرييل جوه أعضاء فريقهم علنًا على وسائل التواصل الاجتماعي.

القائمة ليست طويلة، فقط عشرات الأشخاص.


وهذا يشبه فريقًا صغيرًا أكثر من كونه نظامًا هندسيًا كبيرًا.

يتوزع أعضاء الفريق في اتجاهات مختلفة، بعضهم يقوم بالرؤية، والبعض الآخر يقوم بآليات التوليد، والبعض يتعامل مع بنية النظام، لكنهم يشيرون في النهاية إلى نفس الشيء: إعطاء النموذج مجموعة من القدرات التي يمكنها التعامل مع الصور واللغة والبنية في نفس الوقت.

الرسم التوضيحي في التغريدة هو أيضًا بمثابة استعارة إلى حد ما: مجموعة من الأشخاص يجتمعون معًا، كل شخص مسؤول عن جزء، وفي النهاية يشكلون نفس الصورة.

إن بنية النموذج وحدود القدرات وحتى "ما يجب أن تكون عليه الصورة" كلها يتم إنشاؤها شيئًا فشيئًا في مثل هذا الفريق.

شيء واحد جدير بالملاحظة هو أنه من بين الفريق الأساسي الذي يضم أكثر من عشرة أشخاص، يمكننا رؤية عدد كبير من الأسماء الصينية.

بالإضافة إلى Chen Boyuan، يضم أيضًا Jianfeng Wang الذي يقوم بنمذجة اللغة المرئية، وWeixin Liang الذي يقوم بتقييم النماذج وقضايا البيانات، وYuguang Yang الذي شارك في توليد الصور لفترة طويلة، والعديد من الباحثين المشاركين في توليد الصور والتدريب على النظام.

لم يكتب تشين بويوان هذه الحادثة على أنها انتصار شخصي. وفي نهاية مقال Zhihu، شكر بشكل خاص الفريق بأكمله. قال إن الجميع فعلوا أشياء كثيرة. وفي نهاية فترة ما قبل الإطلاق، بالإضافة إلى إصلاح بعض الأشياء الصغيرة، عمل مع زملائه في قسم التسويق وزملاء الفن للتحضير للمؤتمر الصحفي والموقع الإلكتروني.

بمعنى آخر، GPT Image 2 عبارة عن استكمال مشترك للبحث والمنتجات والجماليات والتواصل. يحتاج الفريق النموذجي إلى إنشاء القدرات، ويحتاج الفريق الفني إلى معرفة نوع الصور التي يمكنها عرض القدرات، ويحتاج فريق التسويق إلى ترجمة هذه القدرات إلى صور يمكن للمستخدمين العاديين فهمها، ويكونون على استعداد للاختبار، وعلى استعداد للنشر.

ولهذا السبب فإن العديد من الأمثلة في هذا الإصدار مميزة. إنهم لا ينتهي بهم الأمر إلى إنشاء صورة جميلة فحسب، بل يخلقون مشاكل بشكل فعال: لغات متعددة، ونص صغير جدًا، وصورة داخل صورة، وأشياء حقيقية، وإثبات مرئي، وملصقات يتم إنشاؤها بواسطة البحث، وتضمين رمز الاستجابة السريعة.

تخبر كل صورة المستخدم: ما كنت تعتقد أن نموذج الصورة لا يمكنه فعله من قبل، يمكنك المحاولة مرة أخرى الآن.

ومن هذا المنظور، يعتبر موقف تشين بويوان مميزًا للغاية.

وهو يعمل في جانب التدريب النموذجي وجانب السرد في النشر؛ فهو لم يشارك في صنع النموذج فحسب، بل قام أيضًا بتصميم العديد من الصور شخصيًا للسماح للعالم الخارجي بفهم قدرات النموذج.

من المؤكد أن صورة GPT 2 ليست من عمل Chen Boyuan وحده، ولكن انطلاقًا من المعلومات العامة، فإن Chen Boyuan هو بالفعل أحد الأسماء الأكثر استحقاقًا لاهتمام المجتمع الصيني في إصدار نموذج الصورة هذا.

من ناحية، كان نموذج إنشاء الرسم البياني GPT الذي تم إصداره هذه المرة هو تدريبه الرئيسي؛ ومن ناحية أخرى، تصادف أنه كان مسؤولاً عن الاختراق الذي يسهل على المستخدمين الصينيين إدراكه: العرض الصيني.

عندما تمكن الذكاء الاصطناعي أخيرًا من كتابة اللغة الصينية في صور معقدة، جاء الباحث الذي يقف وراءه والذي درس النماذج العالمية منذ فترة طويلة والفهم المكاني والاتساق التوليدي إلى المقدمة.

وأضاف: "آمل هذه المرة أن نتمكن من القبض على الجميع بأمان".