أعلنت شركة OpenAI رسميًا عن إطلاق ChatGPT متعدد الوسائط، والذي يمكنه المشاهدة والاستماع والتحدث

في مساء يوم الاثنين بتوقيت بكين، أصدرت شركة OpenAI، وهي شركة ناشئة معروفة في مجال الذكاء الاصطناعي، تقريرًا بعنوان "يمكن لـ ChatGPT الآن رؤية والاستماع والتحدث"، معلنا أن هذه الميزة سيتم دفعها للمستخدمين الذين يدفعون في الأسبوعين المقبلين. في المؤتمر الصحفي لـ GPT-4 في مارس من هذا العام، يجب أن يكون المشهد الأكثر إثارة للصدمة هو أن جريج بروكمان، رئيس OpenAI، أخذ قطعة من الورق ورسم رسمًا تخطيطيًا، والتقط صورة وسمح لـ GPT-4 بإنشاء الكود لهذا الموقع في 10 ثوانٍ.

(المصدر: OpenAI)

أطلق ChatGPT سابقًا وظيفة "مترجم التعليمات البرمجية" التي يمكنها تحميل الصور، ولديها بعض الإمكانات الأولية لمعالجة الصور والصور النصية. ولكن ليس هناك شك في أن "التقاط الصور وطرح الأسئلة" اليوم هو أقرب إلى سيناريوهات استخدام مساعد الذكاء الاصطناعي لمعظم المستخدمين.

التقط صورة للثلاجة وأخبرك بما ستأكله الليلة

بترتيب العنوان، هناك ميزتان رئيسيتان تم تحديثهما اليوم:المحادثات المبنية على الصور، والمحادثات الصوتية في الوقت الحقيقي.

دعونا نتحدث عن وظيفة الدردشة المصورة التي جذبت الكثير من الاهتمام أولاً. وفقا لـ OpenAI، يمكن للمستخدمين الآنالتقط صورة لثلاجتك ودع ChatGPT يوصي بالوصفات؛ أثناء السفرالتقط صورة لمعلم ودع ChatGPT يخبرك بالأشياء المثيرة للاهتمام في المكان. وبطبيعة الحال، يمكنك أيضًا التقاط صورة لمسألة رياضية والسماح لـ ChatGPT بالإجابة عليها.

في المثال الرسمي، يُعطى ChatGPTصورة للدراجة وسأل كيف تحولتتم خفض المقعد. ثم قال ChatGPT أن ذلك يعتمد على طراز سيارتك. تحتوي بعض السيارات على قضبان سريعة التحرير، وبعضها يتم تثبيته بمسامير، ثم يتم إعطاء خطوات تفصيلية.

ثم تظاهر المسؤول بعدم الفهم والتقط صورة للصاعقة.قام بوضع دائرة حولها باستخدام أداة الرسم الرسمية للتأكيد، ثم سأل ChatGPT عما إذا كانت رافعة تحرير سريعة. قال ChatGPTهذا مسمار، لذا عليك العثور على مفتاح ألين.

ثم التقط المسؤول صورة أخرى لصندوق الأدوات وسأل ChatGPT عن مفتاح الربط. نجح ChatGPT أيضًا في التعرف على مفتاح الربط وطلب من المستخدم تحديد الحجم الذي يجب أن يأخذه بالضبط.

يمكن لـ ChatGPT التحدث!

بالإضافة إلى ذلك، تقوم OpenAI أيضًا بدمج وظائف التعرف على الكلام والنسخ وإنشاء الصوت وإطلاقهاوظيفة الدردشة الصوتية بالذكاء الاصطناعي، هذه الوظيفة متاحة فقط لعملاء iOS وAndroid. وقال المسؤولون إنه يمكن للمستخدمين استخدام هذه الوظيفة لسرد قصص ما قبل النوم للأطفال في المنزل. أو عندما تتناول وجبة في المنزل وتدخل فجأة في جدال حول مشكلة معينة، يمكنك وضع ChatGPT على سطح المكتب لحل الجدال.

وفقًا لـ OpenAI، تستخدم هذه الميزة نظام التعرف على الكلام مفتوح المصدر Whisper لتحويل ما يقوله المستخدم إلى نص. ويستخدم أيضًا نموذجًا جديدًا لتحويل النص إلى كلام ويعمل مع ممثلين صوتيين محترفين لتوفير 5 أصوات ليختارها المستخدمون.

ينطوي الذكاء الاصطناعي الأكثر تقدمًا أيضًا على مخاطر وقيود جديدة

تقول شركة OpenAI إن تقنية الكلام الجديدة الخاصة بها قادرة على إنشاء أصوات اصطناعية واقعية من بضع ثوانٍ فقط من الكلام الحقيقي. تفتح هذه القدرة الباب أمام الإبداع، ولكنها تخلق أيضًا مخاطر جديدة - مثل احتمال قيام المجرمين بانتحال شخصيات عامة لارتكاب عمليات احتيال. لذا فإن قرار OpenAI هو إطلاق هذه الميزة من خلال حالات استخدام محددة مثل "الدردشة الصوتية".

وفي الوقت نفسه، تتعاون OpenAI أيضًا مع المزيد من المؤسسات. على سبيل المثالتقوم شركة البث المباشر Spotify بتجربة هذه الميزة للترجمة الصوتية، مما يساعد مضيفي البودكاست على توسيع نطاق وصولهم العالمي باستخدام أصواتهم لترجمة صوت البودكاست إلى لغات أخرى.

تجلب الصور أيضًا تحديات جديدة، مثل مشاكل الهلوسة واعتماد المستخدمين على التفسير النموذجي للصور في المناطق عالية الخطورة. لذلك، قبل الاتصال بالإنترنت، أجرت OpenAI أيضًا اختبارات المخاطر في مجالات مثل التطرف والقدرات العلمية.

بالإضافة إلى ذلك، بالنسبة للقراء الصينيين الذين قرأوا هذا المقال، ربما تستحق تجربة الحوار المصور التطلع إليها، ولكن قد يتعين استبعاد الحوار الصوتي. قال OpenAI ،النموذج جيد في نسخ النص باللغة الإنجليزية، ولكن أداءه ضعيف في بعض اللغات الأخرى، خاصة تلك التي تستخدم الحروف الهجائية غير الرومانية، ويُنصح المستخدمون غير الناطقين باللغة الإنجليزية بعدم استخدام ChatGPT لمثل هذه الأغراض.