أصبح إنشاء الصور الآن وظيفة أساسية تقود تطوير تطبيقات الذكاء الاصطناعي

يُظهر أحدث تحليل لبيانات التطبيق أنه في عام 2026، تحول بطل الرواية الذي يمكنه حقًا دفع نمو تنزيلات تطبيقات الذكاء الاصطناعي للهواتف المحمولة من النماذج الكبيرة "الذكية" نفسها إلى الوظائف المرئية مع الصور التوليدية باعتبارها جوهرًا. وفقًا لإحصائيات Appfigures، فإن تحديثات الإصدار التي تستخدم نماذج الصور كنقطة بيع تؤدي إلى تنزيلات جديدة أكثر بنحو 6.5 مرات من "التحديثات العادية" التي تركز على ترقيات اللغة أو القدرة على التفكير.

يمثل هذا التغيير تحولًا واضحًا في تركيز موجة الذكاء الاصطناعي. في الأيام الأولى، كان ما دفع المستخدمين لتجربة تطبيقات الذكاء الاصطناعي هو تكرار نماذج الحوار وتحسين أساليب التفاعل مثل الصوت. ولا تزال هذه الوظائف مهمة اليوم، لكنها لم تعد قادرة على تحفيز اهتمام المستخدم بشكل كبير في فترة زمنية قصيرة كما كانت تفعل في الماضي. في المقابل، من المرجح أن تجذب الميزات التي تولد محتوى مرئيًا قابلاً للمشاركة بشكل مباشر الانتباه على وسائل التواصل الاجتماعي ومتاجر التطبيقات.

تؤكد أحدث إيقاعات المنتج للعديد من منصات الرأس هذا الاتجاه جيدًا. بعد أن أطلق تطبيق Google Gemini نموذج الصورة Nano Banana، قفز عدد عمليات التثبيت بشكل ملحوظ؛ وفي غضون 28 يومًا بعد إطلاق نموذج صورة Gemini 2.5 Flash، كان هناك أكثر من 22 مليون عملية تنزيل جديدة، وكان معدل النمو حوالي أربعة أضعاف متوسطه السابق لنفس الفترة الزمنية. تُظهر سلسلة التحديثات هذه أنه حتى لو لم تكن التغييرات في النموذج الأساسي بحد ذاتها صادمة، فطالما أن هناك طريقة لعب جديدة على جانب الصورة "المرئية"، فسيكون ذلك كافيًا لتحريك منحنى التنزيل على المدى القصير.

شهد ChatGPT من OpenAI نموًا مماثلاً بعد دمج إمكانات إنشاء الصور GPT‑4o. وفي أول 28 يومًا بعد إطلاق الميزة الجديدة، شهد التطبيق أكثر من 12 مليون عملية تثبيت جديدة. تشير البيانات المقارنة من Appfigures إلى أن ذروة التنزيل هذه تبلغ حوالي 4.5 أضعاف الزيادة الناتجة عن ترقيات النماذج السابقة مثل GPT‑4o وGPT‑4.5 وGPT‑5، مما يؤكد أيضًا أنه بالنسبة لمعظم المستخدمين الجدد، تعد وظائف الصورة "المرئية" أكثر ابتكارًا من تحسينات أداء النص التي يصعب إدراكها بشكل بديهي.

لا يقتصر هذا النموذج للنمو المرئي القائم على المحتوى على الصور الثابتة. حقق منتج الذكاء الاصطناعي التابع لشركة Meta، Vibes، والذي يركز على مقاطع الفيديو القصيرة التي تم إنشاؤها بواسطة الذكاء الاصطناعي، حوالي 2.6 مليون عملية تنزيل إضافية للتطبيق في شهره الأول منذ إطلاقه في سبتمبر 2025. على الرغم من أنه يؤكد من حيث الشكل على الفيديو، إلا أنه في جوهره لا يزال أداة ذكاء اصطناعي مرئية تسعى إلى "الإنتاج السريع والمشاركة السهلة". إنها ووظيفة توليد الصور تشيران معًا إلى نفس الاتجاه: استخدام المزيد من التعليقات المرئية المباشرة لتقصير مسار المستخدم من الفضول إلى النشر.

ومع ذلك، فإن الزيادة في التنزيلات لا تعني تلقائيًا زيادة في الإيرادات. وكشفت البيانات أيضاً عن فجوة واضحة في "تحقيق النمو". لنأخذ الجوزاء كمثال، على الرغم من أن Nano Banana حقق أداءً قويًا في التثبيت الجديد في غضون 28 يومًا بعد إصداره، إلا أنه ساهم بحوالي 181000 دولار أمريكي فقط في الإنفاق المقدر على جانب المستهلك خلال نفس الفترة. تعتبر Meta’s Vibes مثيرة للإعجاب بنفس القدر في زيادة الأرقام المثبتة، ولكن لا توجد علامات تذكر على زيادة نمو الإيرادات المقابلة. يوضح هذا أنه بالنسبة لمعظم المنتجات، أصبحت وظيفة الصورة حاليًا أشبه بـ "أداة اكتساب العملاء" بدلاً من محرك تحقيق الدخل المباشر.

في هذه المرحلة، يعد ChatGPT أحد الاستثناءات القليلة التي "تكسر اللعنة". لم يجذب نموذج الصورة GPT‑4o عددًا كبيرًا من المستخدمين الجدد فحسب، بل أدى أيضًا إلى زيادة التحويلات المدفوعة بشكل كبير: في غضون 28 يومًا من بدء تشغيل الميزة الجديدة، كان إنفاق المستخدم المقدر للتطبيق أعلى بنحو 70 مليون دولار من مستويات خط الأساس. توضح هذه المجموعة من البيانات أن وظيفة الصورة لديها القدرة على القيام بالمهام المزدوجة المتمثلة في "جذب مستخدمين جدد" و"تحقيق الدخل" في نفس الوقت، ولكن فقط إذا كان تصميم موقعها وسعرها في هيكل المنتج واضحًا بدرجة كافية بحيث يكون المستخدمون على استعداد لدفع ثمنها وليس مجرد اعتبارها "مرشح لعبة" مجانيًا.

لا تعتمد جميع منتجات الذكاء الاصطناعي الشائعة على قدرات الرسومات لدفع النمو. كما أن نموذج R1 الذي أطلقته DeepSeek في يناير 2025، بدون إمكانات صورة أو فيديو بارزة، حقق أيضًا حوالي 28 مليون عملية تنزيل في فترة زمنية قصيرة. الفرق هو أن موجة الصعود هذه ترجع بشكل أكبر إلى اهتمام الصناعة وتأثيرات الموضوع - وخاصة المناقشة واسعة النطاق الناجمة عن طريق التدريب منخفض التكلفة والمسارات الفنية ذات الصلة في دائرة التكنولوجيا، بدلاً من نوع معين من الخصائص المرئية التوليدية.

ومع ذلك، انطلاقًا من البيانات الإجمالية الحالية، فإن الاتجاه واضح بما فيه الكفاية: في سيناريوهات الهاتف المحمول، أصبحت وظائف الذكاء الاصطناعي المرئي هي نقطة الدخول الأولى لعدد كبير من المستخدمين للوصول إلى تطبيق الذكاء الاصطناعي. بالنسبة للمستخدمين العاديين، غالبًا ما تكون الصور ومقاطع الفيديو القصيرة التي يمكن إنشاؤها بسرعة ومشاركتها على الفور أكثر جاذبية من "تحسين الاستدلال" و"ترقية النموذج" الأكثر تجريدًا. لا يزال تطور قدرات النموذج الأساسي مهمًا، لكنه يتم "إخفاؤه" بشكل متزايد في الخلفية. إن ما يحدد في النهاية ما إذا كان المستخدمون على استعداد لتنزيل تطبيق ما أو تجربته أو حتى التوصية به غالبًا ما يكون ميزات الصور والفيديو الواضحة وسهلة النشر.