يتيح نموذج Qwen-Image-Layered الجديد لتوليد الصور مفتوح المصدر من Alibaba فهم الطبقة على مستوى PS وتوليد الصور داخل النموذج لأول مرة.يعتمد نموذج Qianwen الجديد على بنية مبتكرة مطورة ذاتيًا.يمكنه "تحليل" الصور إلى طبقات متعددة، تمامًا مثل المصمم المحترف الذي يستخدم Phoيمكن أن يؤدي عرض وتنقيح الطبقات في toshop إلى تحقيق تحرير دقيق لصور الذكاء الاصطناعي "بدون انحراف" تقريبًا، الحل الكامل لمشكلة اتساق الرسومات التي تم إنشاؤها بواسطة الذكاء الاصطناعي وتسريع التنفيذ العملي للنماذج الكبيرة في مجال التصميم الاحترافي.

يكسر Qwen-Image-Layered "التفكير المسطح" للنماذج الكبيرة المرئية السائدة. ينشئ النموذج "فهمًا ماديًا" أكثر دقة للعالم الحقيقي من خلال "الطبقات" و"الإكمال"، مما يسمح للذكاء الاصطناعي بالانتقال من "النظر إلى الصور والتحدث" المسطح إلى "إعادة البناء المكاني" الحقيقي.

في المجال الحالي للنماذج المرئية الكبيرة، يعد تحرير تناسق الصور دائمًا تحديًا أساسيًا.تعد الصور التي ينشئها الذكاء الاصطناعي إبداعية ولكن يصعب تحريرها، ويرجع ذلك أساسًا إلى أن النماذج الكبيرة تفهم الصور على أنها مسطحة، مع مجموعة من البكسلات المقترنة ببعضها البعض بإحكام، ولا يمكنها إدراك العلاقات المادية مثل المسافة وحجب الأشياء في الصورة مثل البشر.

لذلك، فإن رسم نموذج كبير وتحريره يشبه رسم البطاقات "لفتح صندوق أعمى": على سبيل المثال، تريد تحريك القطة في اللوحة مسافة 10 سنتيمترات إلى اليسار، لكن الذكاء الاصطناعي ليس لديه أي فكرة عما سيكون في الخلفية بعد تحرك القطة إلى اليسار، لذلك يمكنه فقط إعادة إنشائها مرة أخرى، وسوف تتغير كل من القطة والخلفية.

هذا النوع من العشوائية المتمثلة في أن "شعرة واحدة تلامس الجسم كله" يعني أن الرسم بالذكاء الاصطناعي لا يمكن استخدامه إلا كمرجع في المجالات المهنية مثل تصميم الإعلانات التجارية، وتصميم واجهة المستخدم، والمعالجة اللاحقة للأفلام والتلفزيون التي تسعى إلى الدقة المطلقة، ولا يمكن أن تحل محل الأدوات الاحترافية حقًا.

إن ظهور Qwen-Image-Layered يعني أن النماذج المرئية الكبيرة تتحول من "التنبؤ بالبكسل" إلى "إعادة التنظيم الهيكلي".قام فريق Qianwen بتطوير ترميز RGBA-VAE جديد بنفسه، والذي قدم "قناة ألفا" التي تمثل طبقة الشفافية في صورة RGB التقليدية، مما يعطي النموذج مفهوم الطبقة..

في الوقت نفسه، يعتمد النموذج الجديد بنية VLD-MMDiT المبتكرة، جنبًا إلى جنب مع "ترميز الموضع ثلاثي الأبعاد على مستوى الطبقة" الفريد، مما يسمح للذكاء الاصطناعي "بملء الدماغ" تلقائيًا نسيج الخلفية للأجزاء المغطاة، مما يحقق فهمًا أعمق وتوليد الطبقات والمساحة.

من المفهوم أنه من أجل تدريب هذه القدرة، استخرج فريق Qianwen منطق الطبقة الحقيقية من عدد كبير من ملفات Photoshop (PSD) الاحترافية، بحيث يتمتع الذكاء الاصطناعي بـ "التفكير الطبقي" للمصممين المحترفين منذ الولادة.

مخطط معماري لنموذج Qwen-Image-Layered

وأشار المطلعون على الصناعة إلى أن نموذج Qianwen الجديد سيُحدث تغييرات جوهرية في الصناعة الإبداعية. لم يعد الرسم بالذكاء الاصطناعي قطعة جامدة، بل مكتبة مواد حية وقابلة للتعديل بلا حدود.

لم يعد تحرير الصور يتطلب قطعًا يدويًا معقدًا ومتطورًا، ولكن الذكاء الاصطناعي يدرك أصلاً "إمكانية التحرير المتأصلة". يمكن للمصممين ورسامي الرسوم المتحركة ومنتجي الأفلام والتلفزيون تغيير مكونات طبقات معينة أو تغيير حجمها أو إعادة رسمها مع الحفاظ على الخلفية أو الموضوع دون تغيير تمامًا، مما يؤدي إلى تحسين كفاءة إنتاج إنشاء المحتوى الرقمي بشكل كبير.

من المفهوم أن Qwen-Image-Layered مفتوح المصدر في Magic Community وHuggingFace، ويمكن للمطورين والشركات تنزيله مجانًا للاستخدام التجاري.

حتى الآن، قامت علي بابا بفتح المصدر لما يقرب من 400 نموذج Qianwen، مع تجاوز التنزيلات العالمية 700 مليون وأكثر من 180.000 نموذج مشتق، مما يجعلها النموذج مفتوح المصدر رقم واحد في العالم. لقد خدم Tongyi Large Model أكثر من مليون عميل. تحتل Tongyi المرتبة الأولى في سوق الاتصال بالنماذج الكبيرة على مستوى المؤسسات في الصين، وهي النموذج الكبير الأكثر اختيارًا من قبل الشركات الصينية.