يقوم GPT Image2 بتحديث الشبكة بالكامل، ولكن لماذا يكون التأثير جيدًا جدًا؟ كشف قائد البحث تشين بويوان: لقد تم إعادة بناء البنية الأساسية بالكامل. لكنه رفض الإجابة عما إذا كان قد استخدم نموذج الانتشار أو تقنية الانحدار الذاتي، واكتفى بوصفه بشكل غامض بأنه "نموذج عالمي" أو "GPT في مجال الصورة".


كشفت تغريدة لـ Chen Boyuan أيضًا أن الأمر استغرق أربعة أشهر فقط لتحقيق مثل هذا التحسن الكبير من GPT Image 1.5 في نهاية ديسمبر من العام الماضي.


لمثل هذا الإنجاز المذهل، يتكون الفريق الأساسي من 13 شخصًا فقط.

نشر غابرييل جوه، قائد الفريق بأكمله، صورة عائلية لأعضاء فريق الذكاء الاصطناعي.


وأعرب بعض مستخدمي الإنترنت عن أسفهم: لماذا كلهم ​​آسيويون؟


تشن بويوان: من عدم معرفة لغة بايثون إلى قيادة الأبحاث

ما هي بنية GPT Image 2 بالضبط؟

قد لا يتم الإعلان عن OpenAI لفترة طويلة، ولكن يمكن رؤية بعض الآثار من الخبرة الأكاديمية لأعضاء الفريق الأساسي.

تشين بويوان هو قائد البحث في الفريق. هو وعضو آخر كيوهان سونغ كان لهما نفس المرشد فنسنت سيتزمان عندما كانا يدرسان للحصول على درجة الدكتوراه. في معهد ماساتشوستس للتكنولوجيا.


تم اختيار تحفته الفنية Diffusion Forcing: التنبؤ بالرمز التالي مع الانتشار الكامل للتسلسل أثناء حصوله على درجة الدكتوراه في NeurIPS 2024.

تقترح هذه الدراسة Diffusion Forcing، وهو نموذج تدريبي جديد لتوليد التسلسل يجمع بين نشر مستوى الضوضاء المستقل لكل رمز على حدة مع التنبؤ السببي للرمز التالي، ودمج توليد الطول المتغير لنموذج الانحدار الذاتي ومزايا التوجيه طويل المدى لنموذج نشر التسلسل الكامل.


أثناء فترة تدريبه في Google، نشر أيضًا SpatialVLM كمؤلف مشارك.

من خلال الإنشاء التلقائي لمجموعة بيانات VQA للاستدلال المكاني ثلاثي الأبعاد على نطاق الإنترنت (10 ملايين صورة، 2 مليار زوج من ضمان الجودة)، يتم تزويد نموذج اللغة المرئية بقدرات الاستدلال المكاني الكمي/النوعي، ويمكن إخراج القيم الدقيقة مثل المسافة المترية والحجم والاتجاه من صورة واحدة ثنائية الأبعاد.

يطبق هذا البحث الاستدلال المكاني لسلسلة التفكير في مجال الذكاء المتجسد.


أثناء فترة تدريبه في Google، تم اعتماد تقنية الضبط الدقيق للتعليمات التي طورها لاحقًا بواسطة Gemini 2.0.

عندما شارك في معسكر صيفي للبحث العلمي في المدرسة الثانوية، لم يفهم بناء الجملة الأساسي لبايثون. شيا فاي، أحد كبار الباحثين في Google DeepMind والذي التقى به في ذلك الوقت، عرّفه على عالم الذكاء الاصطناعي.

دعاه Xia Fei مرتين لإكمال تدريب داخلي عالي الجودة في DeepMind. مكنت هذه التجارب تشين بويوان من تجميع الخبرة الهندسية في التدريب على النماذج واسعة النطاق، كما زودته بمنظور قيم لفهم متطلبات البيانات للأنظمة متعددة الوسائط.

بعد التخرج بدرجة الدكتوراه، انضم تشين بويوان إلى OpenAI في يونيو 2025 وسرعان ما أصبح أحد الأعضاء الخمسة الأساسيين في توليد صور GPT. كان مسؤولاً عن كل التدريبات الخاصة بنموذج توليد الصور GPT وكان أيضًا عضوًا في فريق إنشاء فيديو Sora.

وفي المظاهرة، قام بعمل ملصق لمسقط رأسه في ووشي. ثم صنعت ملصقات كورية لزملائي في الفريق من سيول وملصقات بنغالية لزملائي في الفريق من بنجلاديش. تقديم النص في كل واحد هو دقيق.


جيانفينج وانج، جامعة العلوم والتكنولوجيا في الصين: دع Shengtu AI يفهم المعرفة العالمية

جيانفينج وانج، الذي تخرج بدرجة الدكتوراه. من جامعة العلوم والتكنولوجيا في الصين، وهو مسؤول عن قدرة مذهلة أخرى في فريق GPT Image 2: اتباع التعليمات وفهم العالم.


تشير الساعة الأبدية التي رسمها النموذج القديم دائمًا إلى الساعة 10:10، وهي مستمدة من صور إعلانات الساعة الموجودة على الإنترنت، وجميعها تقريبًا 10:10.

وذلك لأن مصنعي الساعات أجروا تجارب مع علماء النفس ويعتقدون أن ذلك سيساعد في تحفيز رغبة المستهلكين في شراء الساعات.


وطلب من النموذج الجديد أن يرسم 2:25، و3:30، و9:10، و7:45، بدقة.


هذه مجرد فاتح الشهية.

تخطيط مكاني أكثر تعقيدًا مع وجود تفاحة في المنتصف، وكوب على اليمين، وكتاب في الأعلى، وكاميرا على اليسار، وكرة سلة في الأسفل. يتم تنفيذ جميع النماذج بدقة.


قبل انضمامه إلى OpenAI، عمل في Microsoft لمدة 9 سنوات تقريبًا. أثناء وجودي في Microsoft، تعاونت مع فريق OpenAI في DALLE-3.

وقد نشر العديد من الأوراق الأكاديمية في مجال الرؤية الحاسوبية، وقد يغطي محتوى بحثه تصنيف الصور، واكتشاف الأهداف، والتجزئة الدلالية، وتعلم التمثيل البصري.

تم تحسين القدرة على فهم المعرفة العالمية بشكل كبير، وتم فهم المحتوى الدلالي والبنية الوظيفية للأشياء بشكل صحيح.

قال JianFeng Wang في نهاية الفيديو التوضيحي: تعمل GPT Image 2 على إزالة الفجوة بين نيتك ومخرجات النموذج.

افعل ما تريد حقًا، وسيعطيك النموذج ما تريد.

Yuguang Yang: إنشاء رسومات معلومات معقدة عالية الدقة

أظهر Yuguang Yang كيفية إنشاء الرسوم البيانية وعروض PPT في حدث إطلاق GPT Image 2.


اسحب ورقة GPT-3 المكونة من 75 صفحة بالكامل إلى ChatGPT وقم تلقائيًا بإنشاء 7 شرائح.


ويمكن القول أن تجربته هي الأغنى بين أعضاء الفريق. كل وظيفة يتولاها هي وظيفة عابرة للحدود، لكنها جميعًا تركز على التعلم الآلي.

درس الهندسة في كلية Zhu Kezhen بجامعة تشجيانغ للحصول على شهادته الجامعية، ودرس الفيزياء الكيميائية الحاسوبية والتعلم الآلي أثناء حصوله على درجة الدكتوراه. في جامعة جونز هوبكنز.

كانت وظيفته الأولى بدوام كامل كمحلل كمي. أثناء عمله كباحث زائر في جامعة تسينغهوا، عمل يانيو على التعلم المعزز وخوارزميات التحكم في الروبوتات النانوية.

وفي وقت لاحق، أجرى بحثًا صوتيًا عن Alexa في Amazon.

لقد عملت أيضًا على فهم استعلام بحث Bing واسترجاعه وفهم المستندات في Microsoft.

بعد انضمامه إلى OpenAI في أوائل عام 2025، بالإضافة إلى إنشاء الصور، شارك أيضًا في مشروع وكيل ChatGPT.


لقد قدم إمكانية إنشاء الرسوم البيانية لـ GPT Image 2 على حسابه الشخصي، مما يمكن أن يوفر الكثير من الوقت للباحثين العلميين.


كما أذكّر الجميع مرارًا وتكرارًا أنه عند إنشاء الرسوم البيانية، لا تنسوا اختيار وضع التفكير.


من DALL-E إلى GPT Image 2.0

من التقديم الذاتي لعضو الفريق كينجي هاتا، علمنا أن GPT Image 1.0 هو جزء إنشاء الصور في GPT-4o.


هناك شخص واحد شارك في سلسلة أبحاث OpenAI متعددة الوسائط بالكامل منذ DALL-E.

إنه غابرييل جوه، قائد فريق GPT Image 2.0.

منذ انضمامه إلى OpenAI في عام 2019، كانت أبحاثه المبكرة أكثر نظرية، مع التركيز على إمكانية التفسير، والتحسين المحدب، وما إلى ذلك.

بدءًا من DALL-E، تحولت ببطء إلى إنشاء الصور.


عند رؤية السيرة الذاتية البحثية لعضو آخر في الفريق Weixin Liang، تم الكشف عن الخلفية الفنية لـ GPT Image 2.

أدى عمله التمثيلي خلال فترة تدريبه في Meta، وهو Mixture-of-Transformers، إلى تقديم فصل مشروط لوزارة التعليم وفصل الانتباه، مما أدى إلى تقليل التكلفة الحسابية للتدريب المسبق للنموذج متعدد الوسائط بشكل كبير.


تخرج بدرجة الدكتوراه من جامعة ستانفورد ودرجة البكالوريوس من كلية Zhu Kezhen بجامعة تشجيانغ، لكنه كان متأخرًا بعدة سنوات عن Yuguang Yang.

Weixin Liang، مثل Chen Boyuan، كلاهما حاصلان على 25 عامًا من الدكتوراه. وانضم إلى OpenAI مباشرة بعد التخرج وسرعان ما أصبح عضوًا أساسيًا في الفريق.


يشمل أعضاء فريق GPT Image 2.0 الآخرين ما يلي:

شارك أيان حق، الذي عمل سابقًا في Luma AI، في تدريب Dream Machine، النموذج الأساسي لتوليد الفيديو من Luma.

عمل Bing Liang في Google لأكثر من خمس سنوات، حيث شارك في Imagen3 وVeo وGemini Multimodal. وفي عام 2025، انتقل إلى OpenAI لإجراء أبحاث حول توليد الصور.

Mengchao Zhong هو خريج جامعة Shanghai Jiao Tong بدرجة البكالوريوس ودرجة الماجستير من جامعة Texas A&M. لقد عمل كمهندس برمجيات في Pinterest وAirtable، وهو مسؤول عن هندسة المنتجات متعددة الوسائط في OpenAI.

ديبيا بهاتاشارجي، جامعة ييل، الميدالية البرونزية IphO في عام 2015، أعلى الدرجات في العالم في CIE A-Level الرياضيات والأحياء.

كان كيوهان سونغ آخر من انضم في أكتوبر 2025. بالإضافة إلى إجراء الأبحاث، فهو أيضًا سيد الكلمات السريعة في الفريق. العديد من صور المظاهرة الرسمية التي تراها هي منه.

بدءًا من DALL-E الأقدم وحتى GPT Image 2.0 اليوم، قام هذا الفريق بحل هذه المشكلة الواحدة تلو الأخرى. يمكنك الرسم بوضوح، والرسم بشكل جميل، والرسم بدقة.


على الرغم من أن تدفق المواهب في OpenAI كان رائعًا في السنوات الأخيرة، إلا أن OpenAI لا تزال شركة يمكنها الاستمرار في جذب المواهب بشخصيات مختلفة، ولا تحد من التخصصات، وترحب بالأبحاث العابرة للحدود، وتؤمن بالأبحاث الناشئة من القاعدة إلى القمة.

بدءًا من فريق صغير، وبعد تحقيق الإنجازات، تخصص الشركة المزيد من الموارد حتى تغير العالم.

شيء آخر

ذات مرة، اجتاح توليد الصور GPT-4o العالم من خلال تقليد الصور الرمزية على طراز Ghibli.

الآن قام أعضاء فريق GPT Image 2.0 بتغيير الصور الرمزية الخاصة بهم إلى هذا النمط الغريب من الرقبة.


فما هي القرائن لهذا النمط من الرسم؟ كما تم الإعلان عن أعضاء الفريق

Use my photo only for identity. Redraw me as a very simple surreal Japanese sticker-style caricature: long thin neck, small deadpan face, minimal black outline, flat light coloring, almost no shading, very few facial details, simplified hair shape, lots of white space, plain white background, slightly awkward and funny. Ultratall 1:3 image.

الروابط المرجعية:

[1]https://x.com/gabeeegoooh/status/2046674385407512687?s=20

[2]https://venturebeat.com/technology/openais-chatgpt-images-2-0-is-here-and-it-does-multilingual-text-full-infographics-slides-maps-even-manga-seemingly-flawless