لقد لاحظت شركة أبل بهدوء مدى إثارة الذكاء الاصطناعي التوليدي خلال العام الماضي، وعملت على بناء أساسها البيئي. كما أنها تتحرك خطوة بخطوة نحو إصدار AiPhone العام المقبل. في أكتوبر، أطلق فريق أبحاث التعلم الآلي التابع لشركة Apple نموذج "Ferret" (Ferret). يفهم هذا النموذج الكبير متعدد الوسائط المساحة بدقة أكبر من GPT-4v. في الآونة الأخيرة أصبح هذا النموذج مفتوح المصدر. ببساطة، إذا أشرت إلى أي شيء في أي مكان في الصورة، مهما كان صغيرا، يمكن لـ "النمس" أن يشرح ذلك بوضوح.


تلعب هذه الحساسية للفضاء دورًا مهمًا في VisionPro القادم من Apple، والذي يجمع بين الإدراك البصري الطبيعي/الافتراضي ونماذج اللغات الكبيرة. مؤلفو هذه الورقة المتواضعة جميعهم صينيون. لقد اجتذبت المزيد والمزيد من الاهتمام في الصناعة مؤخرًا. لقد وصل إلى مستوى SOTA في الحوسبة المكانية.


بنية نموذج "Ferret" (المصدر: FERRET: REFERANDGROUNDANYTHINGANYWHEREATANYGRANULARITY)

أطلقت Apple مؤخرًا MLX، وهو إطار عمل مفتوح المصدر يمكنه تدريب ونشر نماذج كبيرة على شريحة M3 الخاصة بها. وهذا يعني أن مطوري أجهزة الكمبيوتر المحمول Mac يمكنهم تطوير التطبيقات التي تدعم النماذج الكبيرة.

أطلقت شركة Apple أيضًا "Lightning Large Model" (LLMinaFlash)، الذي يستخدم ذاكرة فلاش لحل مشكلة عدم كفاية ذاكرة النماذج الكبيرة (DRAM) المنتشرة على الهواتف المحمولة.

هذه هي الورقة التي أحبها شخصيًا كثيرًا. نعم، شركة أبل التي كانت تعمل سراً، بدأت أيضاً بنشر الأوراق بصمت.

تتحدث هذه الورقة عن مسألة صغيرة ولكنها حاسمة: كيفية نشر نموذج كبير في مساحة ذاكرة محدودة للغاية مثل الهاتف المحمول، ويجب أن تكون سرعة الاستدلال سريعة دون استهلاك البطارية.

أكبر ميزة لها هي عدم الحديث عن الخوارزميات القائمة على الخوارزميات، ولكن اقتراح أساليبها الخاصة بناءً على الفهم العميق للأجهزة ودمجها مع الخوارزميات. نقطة البداية هي تفكير المستهلك تمامًا. النموذج الكبير موجود في السحابة البعيدة. إنها مخيفة كبيرة ومكلفة. فقط من خلال وضعها في جيب المستخدم، يمكن للمستهلكين أن يشعروا بالذكاء الاصطناعي التوليدي.

DRAM صغير جدًا بحيث لا يمكنه استيعاب طراز بمليارات الدولارات. على الرغم من أنه يمكن وضعها في ذاكرة فلاش، إلا أن النطاق الترددي لذاكرة الفلاش ليس كافيًا. من أجل تقليل الحمل على عرض النطاق الترددي من ذاكرة الفلاش إلى DRAM، ابتكرت Apple تقنيتين، النوافذ وتجميع الصفوف والأعمدة (انظر الورقة للحصول على التفاصيل).

تم اختباره على طرازين، OPT6.7B وFALCON7B، وكانت النتائج "متفجرة" تمامًا. حجم النموذج الذي يمكن تشغيله هو ضعف حجم DRAM المتاح. بالمقارنة مع طريقة التحميل البسيطة في وحدة المعالجة المركزية ووحدة معالجة الرسومات، تزداد سرعة الاستدلال بمقدار 4 إلى 5 مرات و20 إلى 25 مرة على التوالي.

إن مواءمة الشريحة ونظام التشغيل وتصميم النظام وإيجاد طريقة لبناء نموذج تكلفة منطقي هو أمر لا يمكن إلا لشركة Apple القيام به.

في الآونة الأخيرة، صدم أداء سلسلة من النماذج الصغيرة التي تحتوي على مليارات المعلمات العالم. على سبيل المثال، يستطيع ميسترال وPhi-2 تحدي النماذج الكبيرة التي تحتوي على عشرات المليارات من المعلمات؛ أطلقت Google نموذج Gemini على مستوى النانو مع 1.8 مليار معلمة، والتي يمكن تثبيتها مباشرة على هواتف Pixel. يمكن لرقائق Snapdragon من Qualcomm تشغيل عشرات المليارات من النماذج على مستوى المعلمات. قد تطلق سامسونج هاتف Galaxy S24 مزودًا بقدرات ألعاب الذكاء الاصطناعي في أوائل عام 2024.

وهناك أيضًا محرك الاستدلال PowerInfer الذي أطلقه فريق جامعة شنغهاي جياو تونغ، والذي أزال عقبة تلو الأخرى أمام نشر نماذج كبيرة على أطراف الأجهزة، وخاصة الهواتف المحمولة وأجهزة الكمبيوتر المحمولة. ويشير أيضًا إلى أنه في عام 2024، ستبدأ المنتجات الإلكترونية الاستهلاكية في موجة من ذروة تحميل النماذج الكبيرة.

إن إطلاق هذه النماذج "الصغيرة" له سمة مشتركة، وهي استخدام بيانات عالية الجودة، "على مستوى الكتاب المدرسي". مما لا شك فيه أن أرشيفات وسائل الإعلام الإخبارية الرئيسية يمكن أن توفر مواد تدريبية لغوية جيدة.

تتفاوض شركة Apple مع المؤسسات الإعلامية الكبرى في الولايات المتحدة للحصول على أرشيف هذه الوسائط مقابل حوالي 50 مليون دولار أمريكي لتدريب نماذجها الكبيرة، والتي قد تستخدم خدمة المحادثة Siri.

فكر في جودة هذه المجموعات التدريبية، Conde Nast’s Vogue، وNew Yorker، وNBCNews، وIAC’s People، وTheDailyBeast، وBetterHomes، وGards، وما إلى ذلك. فهي تشتمل على ثروة من النصوص والصور الجميلة التي تعرض محتوى الموضة وأسلوب الحياة. يتضمن أيضًا مقالات إخبارية وصورًا ومقاطع فيديو مختارة.

لكن وسائل الإعلام الرئيسية الأخرى أبدت القليل من الاهتمام. في الماضي، لم يكن التعاون بين وسائل الإعلام المطبوعة ووسائل التواصل الاجتماعي يحقق لهم الكثير من الفوائد. بالإضافة إلى ذلك، قامت وسائل الإعلام بتسليم الأخبار الموجودة في أرشيفاتها إلى شركة آبل لتدريب النموذج الكبير. كما تسببت النزاعات القانونية التي قد تنشأ أثناء عملية الاستخدام في إثارة قلق هذه الوسائط.

ويعتبر نهج أبل أكثر أصالة. استخدمت شركات الذكاء الاصطناعي الأخرى أو عمالقة التكنولوجيا لأول مرة مجموعة أشخاص آخرين ثم تفاوضت على الترخيص بعد القبض عليها، الأمر الذي أدى إلى رفع بعض الدعاوى القضائية.

لا ترغب شركة Apple في استخراج البيانات مباشرة من الإنترنت بسبب تركيزها على الخصوصية. ولا يُسمح لشركة Apple أيضًا بجمع بيانات عن عملائها.

فماذا ستفعل أبل في عام 2024؟

أول شيء يفكر فيه الجميع هو إطلاق Siri، وهو مساعد لغوي مدعوم بالذكاء الاصطناعي التوليدي، في العام المقبل. سيكون هذا أهم ما يميز iPhone16 وiOS18 في خريف عام 2024. وقال بعض محبي Apple مازحين إنهم سيطلقون SiriGPT. لكن هذه مجرد قمة جبل الجليد.

عادة ما يكون النهج الذي يتبعه العمالقة هو إيجاد تقنيات جديدة لتعزيز قدراتهم الأساسية وخلق تمايز في منتجاتهم الأصلية. ظاهريًا، يبدو أن شركة آبل ترتكز على أمجادها، وتتحرك ببطء نحو الذكاء الاصطناعي التوليدي وتتبنى استراتيجية متابعة متحفظة؟ أو هل تستطيع Apple حقًا استخدام قدرات التكامل المتكاملة وقدرات تصميم المنتجات في الرقائق وأنظمة التشغيل والنماذج الكبيرة لإنشاء أفضل تجربة لمنتج الذكاء الاصطناعي؟ الجواب هو على الأرجح الأخير.

في السنوات القليلة الماضية، استحوذت شركة Apple على العشرات من الشركات الناشئة في مجال الذكاء الاصطناعي لاستخدامها في منتجاتها وخدماتها ونظامها البيئي. الأمر فقط أنه لا توجد شركات ناشئة على مستوى النجوم هنا.

أبل تفعل الأشياء فقط ولكنها لا تتحدث عنها. لقد لاحظ المحللون منذ فترة طويلة أن استثمار شركة أبل في الذكاء الاصطناعي لا يقل عن استثمار مايكروسوفت: فقد أنفقت عشرات المليارات من الدولارات لبناء البنية التحتية لتطوير تطبيقات الذكاء الاصطناعي التوليدية. ترددت شائعات في وقت سابق مفادها أن شركة Apple كانت تدرب سرًا طرازها الكبير Ajax داخليًا، أو AppleGPT، وقيل إنها يمكنها اللحاق بـ GPT-3.5 في ذلك الوقت.

لكن سلسلة من نتائج أبحاث أبل الأخيرة في التعلم الآلي تظهر أن أبل تسير في طريقها الخاص. وقد حصدت شركات النماذج الكبيرة مغلقة المصدر، والتي تمثلها مايكروسوفت، وجوجل، وأمازون، ونفيديا، وأوبن إيه آي، المحصول الأول حول النماذج، والسحابة، وقوة الحوسبة.

ما تقدره شركة Apple هو النظام البيئي الضخم الذي يتكون من ملياري جهاز ومستخدميها. إن تجربة iPhone الجديدة التي جلبها الذكاء الاصطناعي التوليدي واستخدام النماذج الكبيرة لدعم جميع التطبيقات توفر لشركة Apple فرصًا في السوق الاستهلاكية يصعب على الشركات العملاقة الأخرى انتزاعها. باسم حماية الخصوصية، تتحكم Apple في الوصول المتبادل بين تطبيقات الطرف الثالث، مما يجعل متجر Apple أيضًا منجم ذهب لتطبيقات الذكاء الاصطناعي المستقبلية.

هل أبل بطيئة؟ إن قضايا الهلوسة المتعلقة بالذكاء الاصطناعي التوليدي، فضلاً عن التنظيم وحماية الخصوصية والنزاعات المتعلقة بحقوق الطبع والنشر وما إلى ذلك، ستجعل شركة Apple تفكر بشكل أعمق وتنظر إليها بشكل أكثر تفكيرًا. تتمتع شركة Apple بمثل هذه الثقة لأن تصميمها المتكامل على جميع المستويات، بما في ذلك الرقائق وأنظمة التشغيل والتطبيقات والمنتجات والتصنيع، سيجلب في النهاية عمقًا مبتكرًا لتجربة المنتج التي قد لا يزال من الصعب على منافسيها مضاهاتها.

لقد تم الصراخ "لحظة iPhone" التي أثارتها OpenAI عدة مرات، لكن Apple التالية ستظل Apple.

الأوراق المرجعية:

https://arxiv.org/pdf/2312.11514.pdf

https://arxiv.org/pdf/2310.07704.pdf

المؤلف / تشو جيانغونغ

مقالات ذات صلة:

Apple "Ferret" - نموذج جديد مفتوح المصدر للتعلم الآلي