في مساء يوم الاثنين بتوقيت بكين، أصدرت شركة OpenAI، وهي شركة ناشئة معروفة في مجال الذكاء الاصطناعي، تقريرًا بعنوان "
(المصدر: OpenAI)
أطلق ChatGPT سابقًا وظيفة "مترجم التعليمات البرمجية" التي يمكنها تحميل الصور، ولديها بعض الإمكانات الأولية لمعالجة الصور والصور النصية. ولكن ليس هناك شك في أن "التقاط الصور وطرح الأسئلة" اليوم هو أقرب إلى سيناريوهات استخدام مساعد الذكاء الاصطناعي لمعظم المستخدمين.
بترتيب العنوان، هناك ميزتان رئيسيتان تم تحديثهما اليوم:
دعونا نتحدث عن وظيفة الدردشة المصورة التي جذبت الكثير من الاهتمام أولاً. وفقا لـ OpenAI، يمكن للمستخدمين الآن
في المثال الرسمي، يُعطى ChatGPT
ثم تظاهر المسؤول بعدم الفهم والتقط صورة للصاعقة.
ثم التقط المسؤول صورة أخرى لصندوق الأدوات وسأل ChatGPT عن مفتاح الربط. نجح ChatGPT أيضًا في التعرف على مفتاح الربط وطلب من المستخدم تحديد الحجم الذي يجب أن يأخذه بالضبط.
بالإضافة إلى ذلك، تقوم OpenAI أيضًا بدمج وظائف التعرف على الكلام والنسخ وإنشاء الصوت وإطلاقها
وفقًا لـ OpenAI، تستخدم هذه الميزة نظام التعرف على الكلام مفتوح المصدر Whisper لتحويل ما يقوله المستخدم إلى نص. ويستخدم أيضًا نموذجًا جديدًا لتحويل النص إلى كلام ويعمل مع ممثلين صوتيين محترفين لتوفير 5 أصوات ليختارها المستخدمون.
تقول شركة OpenAI إن تقنية الكلام الجديدة الخاصة بها قادرة على إنشاء أصوات اصطناعية واقعية من بضع ثوانٍ فقط من الكلام الحقيقي. تفتح هذه القدرة الباب أمام الإبداع، ولكنها تخلق أيضًا مخاطر جديدة - مثل احتمال قيام المجرمين بانتحال شخصيات عامة لارتكاب عمليات احتيال. لذا فإن قرار OpenAI هو إطلاق هذه الميزة من خلال حالات استخدام محددة مثل "الدردشة الصوتية".
وفي الوقت نفسه، تتعاون OpenAI أيضًا مع المزيد من المؤسسات. على سبيل المثال
تجلب الصور أيضًا تحديات جديدة، مثل مشاكل الهلوسة واعتماد المستخدمين على التفسير النموذجي للصور في المناطق عالية الخطورة. لذلك، قبل الاتصال بالإنترنت، أجرت OpenAI أيضًا اختبارات المخاطر في مجالات مثل التطرف والقدرات العلمية.
بالإضافة إلى ذلك، بالنسبة للقراء الصينيين الذين قرأوا هذا المقال، ربما تستحق تجربة الحوار المصور التطلع إليها، ولكن قد يتعين استبعاد الحوار الصوتي. قال OpenAI ،