خلال بث مباشر يوم الثلاثاء، أعلن سام ألتمان، الرئيس التنفيذي لشركة OpenAI، عن أول ترقية رئيسية لقدرات توليد الصور في ChatGPT منذ أكثر من عام. يمكن لـ ChatGPT الآن الاستفادة من نموذج GPT-4o الخاص بالشركة لإنشاء الصور والصور وتعديلها محليًا. لقد كان GPT-4o منذ فترة طويلة أساسًا لمنصات الدردشة الآلية للذكاء الاصطناعي، ولكن حتى الآن كان النموذج قادرًا فقط على إنشاء وتحرير النصوص، وليس الصور.

وقال ألتمان إن إنشاء الصور الأصلية لـ GPT-4o أصبح الآن مباشرًا في ChatGPT ومنتج توليد الفيديو بالذكاء الاصطناعي Sora من OpenAI، وهو متاح للمشتركين في خطة Pro الخاصة بالشركة بقيمة 200 دولار شهريًا. وقالت OpenAI إن الميزة سيتم طرحها قريبًا لمستخدمي Plus ومستخدمي ChatGPT مجانًا، بالإضافة إلى المطورين الذين يستخدمون خدمات API الخاصة بالشركة.

GPT-4o مع إخراج الصور "يفكر" لفترة أطول من نموذج توليد الصور الذي يحل محله بشكل فعال، DALL-E3، وينتج ما يصفه OpenAI بأنه صور أكثر دقة وتفصيلاً. يستطيع GPT-4o تحرير الصور الموجودة، بما في ذلك الصور التي بها أشخاص - تحويلها أو "إصلاح" التفاصيل مثل كائنات المقدمة والخلفية.

ولم تكشف OpenAI عن بيانات الصورة التي استخدمتها لتنفيذ إمكانات إنشاء الصور الجديدة. ينظر العديد من موردي الذكاء الاصطناعي الإبداعي إلى بيانات التدريب على أنها ميزة تنافسية، وبالتالي فهم متحفظون بشأنها والمعلومات المحيطة بها. لكن تفاصيل بيانات التدريب يمكن أن تؤدي أيضًا إلى رفع دعاوى قضائية تتعلق بالملكية الفكرية، وهو سبب آخر يجعل الشركات مترددة في الكشف عن الكثير من المعلومات. 

يوفر OpenAI نموذج إلغاء الاشتراك الذي يسمح للمبدعين بطلب إزالة أعمالهم من مجموعات بيانات التدريب الخاصة بهم. وقالت الشركة أيضًا إنها تحترم طلبات منع الروبوتات الخاصة بتجميع الويب من جمع بيانات التدريب، بما في ذلك الصور، من مواقع الويب.

تأتي إمكانات إنشاء الصور المحسنة في ChatGPT في أعقاب مخرجات الصور الأصلية التجريبية من Google لأحد نماذجها الرئيسية، Gemini 2.0 Flash. تنتشر هذه الميزة القوية على وسائل التواصل الاجتماعي، وليس بالضرورة لأسباب وجيهة. يحتوي مكون الرسومات في Gemini2.0 Flash على القليل من الحماية، مما يسمح للأشخاص بإزالة العلامات المائية وإنشاء صور تصور شخصيات محمية بحقوق الطبع والنشر.