امنح نفسك عطلة. يتم تحديث ChatGPT بسرعة كبيرة، ولا يمكن لخيال مستخدمي الإنترنت مواكبته. أعلن ChatGPT يوم الاثنين عن تحديث كبير بإمكانيات شاملة متعددة الوسائط. في المستقبل، إذا شعرت أن هناك خطأ ما في الدراجة أثناء عودتك إلى المنزل من العمل على دراجة مشتركة، يمكنك التقاط صورة للجزء والسؤال مباشرة.
بعد ذلك، تعود إلى المنزل وتنظر إلى مجموعة الثلاجة الخاصة بك، ويمكن لـ ChatGPT أن يخبرك بالعناصر التي يجب عليك اختيارها لتناول العشاء.
بعد تناول الطعام والذهاب إلى السرير، إذا كنت لا تزال لا تشعر بالنعاس، فيمكنه أيضًا تزويدك ببعض خدمات ASMR، إذا سئمت من سماع هؤلاء المدونين على Bilibili أو YouTube.
في سبتمبر 1985، توفي كالفينو، الذي كتب "مدن غير مرئية"، بسكتة دماغية مفاجئة. وفي صيف هذا العام، طلب المساعدة من طبيب بسبب الصداع. قال الجراح إنه لم ير مثل هذا الدماغ المعقد والحساس من قبل.
بدأ ChatGPT كدماغ جميل بشكل لا يصدق - وغير مرئي - ولكن الآن أصبح لديه عيون وآذان وفم.
مستخدمو الإنترنت حول العالم: هيا، دعونا نقوم بالإيماءات.
المصدر: تويتر
لقد جربه شخص ما، ويمكنه بشكل أساسي تطوير مشاريع برمجية للآخرين.
تتم ولادة مشروع برمجي تقريبًا على النحو التالي: قم أولاً برسم إطار سلكي على السبورة البيضاء، ثم قم بفرز منطق الترتيب، ثم ابدأ في كتابة التعليمات البرمجية، وأخيرًا قم بإنشاء الواجهة. الآن في هذا الأمر، العمل على السبورة يعود إليك، وترك السبورة يعود إليك.
التقط أحد المطورين صورة لإطاره السلكي وأرسلها إلى ChatGPT، وقام بكتابة البرنامج مباشرة.
كما قام أيضًا ببعض الحيل الصغيرة، مثل استبدال موضع الترتيب بأسهم غير منتظمة. لم يرَ ChatGPT ذلك فحسب، بل قبله أيضًا.
ربما لا نزال نقلل من شأن ما ستجلبه تعدد الوسائط.
إن تطور الذكاء الاصطناعي والذكاء البشري يتعارض هنا. يمتلك البشر عيونًا في البداية، وبعد رؤية العالم، يشكلون اللغة والمنطق، والذي بدوره يمكنه وصف وفهم العالم الذي يرونه بشكل أفضل. لقد أصبح تحسين الذكاء البشري على مدار الستة ملايين سنة الماضية فرنًا عملاقًا للتعلم الآلي.
أما بالنسبة لـ ChatGPT، فهو يتمتع بالفعل بأفضل مستوى ذكاء ويمكنه فهم أشياء كثيرة. وما يحدها هو ضغط المعلومات عن طريق النص، مما يجعلها غير قادرة على الوصول إلى مشاكل أكثر تعقيدا. ماذا يحدث عندما تعطي مثل هذا الدماغ زوجًا من العيون. وهذا يعني أنه يُسمح له برؤية معلومات الصورة مباشرة، وتبدأ القدرة على تفكيك المشكلات في الانفجار.
قام أحد الأشخاص بتزويد ChatGPT بمخطط واجهة لبرنامج SaaS وطلب منه تقسيمه إلى مكونات صغيرة وكتابة كل التعليمات البرمجية، وهو ما فعله.
يمكنك أيضًا إعطائها لقطة شاشة أولية لواجهة التحرير الخاصة بـ Unity ومطالبتها بتوفير عملية لإضافة إجراءات النموذج.
المصدر: تويتر
بعد فتح إمكانات الوسائط المتعددة، أصبحت قدرات الفهم والاستدلال في ChatGPT أكثر سهولة، وحتى مخيفة بعض الشيء.
امنح نفسك دقيقة لترى ما إذا كان بإمكانك فهم معنى هذه المجموعة من الصور:
المصدر: تويتر
هذا هو تفسير ChatGPT:
المصدر: تويتر
"يبدو أن هذه المجموعة من القصص المصورة تؤكد على أهمية التواصل والتفاهم والمواءمة داخل الفريق." اختتم ChatGPT في النهاية.
صدم هذا النوع من الفهم بيترو شيرانو، مهندس الذكاء الاصطناعي الذي عمل في فيسبوك وأوبر، وكان عاجزًا عن الكلام.
بالإضافة إلى العيون، هناك آذان وفم.
وراء ترقية ChatGPT هذه، تعتمد إمكانية التعرف على الكلام على نموذج Whisper مفتوح المصدر، وتعتمد إمكانية توليد الصوت على نموذج TTS إضافي (تحويل النص إلى كلام). حاليًا، يدعم تركيب الكلام خمسة أصوات، يتم إنتاجها جميعًا بالتعاون مع ممثلين صوتيين محترفين.
لكن رؤية ChatGPT على هاتفين محمولين يناقش نفسه أمامك، حول "هل حاول أي مستخدم غناء الكاريوكي معك؟" - إنه لا يطلب منك، بل يطلب من شخص آخر - يبدو أنه سابق لعصره قليلاً.
بالإضافة إلى ذلك، يبدو أن لديه القدرة على أن يصبح طبيبًا نفسيًا. أجرت ليليان ونغ، عضو فريق أمان OpenAI، محادثة خاصة عاطفية للغاية مع ChatGPT في الوضع الصوتي، حيث تحدثت عن التوتر والتوازن بين العمل والحياة.
وقالت ليليان ونج على تويتر: "الشيء المضحك هو أنني أشعر بأنني مسموعة ومتحمسة". واقترحت أنه إذا كنت تستخدمه فقط كأداة إنتاجية، فمن الأفضل تجربة جانبه الأكثر حساسية.
المصدر: تويتر
أما بالنسبة لتطور ChatGPT نفسه، فإن فتح القدرات متعددة الوسائط التي تم تدريبها في عام 2022 يرسي أيضًا أساسًا جديدًا للتطور المستقبلي.
قال جون شولمان، كبير المهندسين المعماريين في ChatGPT، في بث صوتي منذ شهر بواسطة بيتر أبيل (معلم جون شولمان عندما كان يركز على التعلم المعزز أثناء حصوله على درجة الدكتوراه في جامعة كاليفورنيا، بيركلي) أنه شعر أن تحسينات الأداء التي جلبتها البيانات الحالية وأساليب قياس النماذج قد تصل إلى الحد الأقصى بعد فترة من الزمن. بعد ذلك، ستنخفض التحسينات التي تجلبها الخوارزميات ومجموعات البيانات وأحجام مجموعات البيانات وقوة الحوسبة تدريجيًا.
"لذا فإن إضافة إمكانات الوسائط المتعددة ستؤدي إلى تحسينات هائلة في الأداء. وهذا يسمح للنموذج باكتساب المعرفة التي لا يمكن الحصول عليها من النص وربما إتقان المهام التي لا تستطيع نماذج اللغة البحتة إنجازها. على سبيل المثال، يمكن للنماذج الحصول على فوائد هائلة من مشاهدة مقاطع الفيديو التي تتفاعل مع العالم المادي أو حتى مع شاشات الكمبيوتر. جميع البرامج مصممة للبشر، وإذا كان النموذج قادرًا على ملاحظة وحدات البكسل وفهم الفيديو، فيمكننا استخدام جميع أنواع البرامج الموجودة أو مساعدة الأشخاص على استخدامها. إن منح النموذج قدرات جديدة والسماح للنموذج بالتفاعل مع أشياء جديدة سيعزز بشكل كبير القدرات الفعلية للنموذج. النموذج."
إذن ما الذي يمكن أن يفعله ChatGPT الشهر المقبل؟ نتطلع إلى ذلك كثيرا.