اليوم، أطلقت شركة علي بابا رسميًا Qwen-Image-2.0، وهو جيل جديد من نماذج إنشاء الصور وتحريرها.باعتبارها قاعدة نموذج توليد الصور لنموذج Qianwen الكبير، يدمج Qwen-Image-2.0 إنشاء الصور وتحريرها. وسجلت 1029 نقطة في تقييم إنشاء الصور AI Arena، متجاوزة نماذج مثل Seedream4.5 وFlux2-Max، والمرتبة الثانية فقط بعد Google Nano Banana Pro وGPT Image1.5.

يدعم Qwen-Image-2.0 إدخال نص طويل جدًا برمز 1K ودقة عالية 2K. يمكنه تقديم تعليمات معقدة بدقة وإنشاء عروض PPT ورسوم بيانية احترافية بسهولة. الجودة قابلة للمقارنة بجودة المصورين المحترفين. وفي الوقت نفسه، يتمتع Qwen-Image-2.0 بقدرات قوية للغاية على عرض الأحرف الصينية، ويمكن عرض النص الكامل لمئات النصوص القديمة بالكامل تقريبًا في الصورة.

Qwen-Image-2.0 عبارة عن ترقية جديدة تعتمد على النموذجين الرئيسيين Qwen-Image وQwen-Image-Edit. لأول مرة، تم توحيد عملية إنشاء الصور وتحريرها في نموذج واحد. بفضل بنية النموذج الأخف، تم تحسين أداء إنشاء الصور وتعديلها بشكل كبير.

نسيج الصور التي تم إنشاؤها بواسطة Qwen-Image-2.0 دقيق بشكل خاص، بدءًا من تجاعيد رجل عجوز إلى اتساع الكون. الصور شائعة الاستخدام للأشخاص والطبيعة والمباني وما إلى ذلك والتي تم إنشاؤها بواسطة النموذج نابضة بالحياة للغاية.

في التقييم المعتمد لـ AI Arena، سجل نموذج Qianwen الجديد 1029 نقطة في توليد الصور، ليحتل المرتبة الثالثة؛ لقد سجل 1034 نقطة في تحرير الصور، في المرتبة الثانية بعد Nano Banana Pro.

فيما يتعلق بعرض الأحرف الصينية، فإن أداء Qwen-Image-2.0 جيد للغاية. لا يمكنه عرض الأحرف الصينية بدقة في مجموعة متنوعة من الخطوط فحسب، بل يمكنه أيضًا كتابة العديد منها وبدقة، ويكون التأثير أفضل من Nano Banana Pro.

يقوم نموذج Qianwen الجديد بتوسيع إدخال الكلمات السريعة إلى 1K من الرموز المميزة، والتي يمكنها وصف المهام بالتفصيل، وتحقيق عرض نص أكثر احترافية، والتعامل بسهولة مع الصور المعقدة مثل PPTs الاحترافية، والملصقات المتقدمة، والرسوم الهزلية متعددة الإطارات. على سبيل المثال، يتم تقديم مئات الكلمات من الرسوم التوضيحية للنص الكامل لـ "مقدمة مجموعة Lanting" بالكامل تقريبًا بخطوط نصية عادية صغيرة، ويتم إنشاء عروض PPT المعقدة مع الرسوم التوضيحية بتنسيق المقال باللغة الطبيعية.

استنادًا إلى نموذج Qwen-Image-2.0، يمكن للمستخدمين التعاون مع الذكاء الاصطناعي لإنشاء صور أكثر ثراءً وعملية، مثل مخطط انسيابي لإنشاء دجاج كونغ باو في جملة واحدة، ودليل سفر لمدة يومين إلى هانغتشو، وصورة جماعية هزلية متعددة الإطارات 4 × 6، وصورة كتاب مصور للأطفال، وملصق فيلم بأسلوب واقعي، وغابة خضراء واقعية للغاية، وما إلى ذلك؛

في الوقت نفسه، يمكن للمستخدمين أيضًا تحميل العديد من الصور لتحريرها لإنشاء صور شخصية بإيماءات متعددة، ورموز تعبيرية مع أشخاص حقيقيين، وصور ذكاء اصطناعي واقعية لشخصين، وقصائد مع صور، وما إلى ذلك.