يُطلق ChatGPT وظائف الصوت والصورة، ويمكنك الآن استخدام أشكال مختلفة من الأوامر لطرح الأسئلة على AI

تتضمن معظم تغييرات OpenAI على ChatGPT قدرات روبوت الذكاء الاصطناعي: الأسئلة التي يمكنه الإجابة عليها، والمعلومات التي يمكنه الوصول إليها، والنماذج الأساسية المحسنة. لكن هذه المرة، يقوم بتعديل الطريقة التي تستخدم بها ChatGPT نفسه. تطلق الشركة إصدارًا جديدًا من خدمتها يتيح لك مطالبة روبوت الذكاء الاصطناعي ليس فقط عن طريق كتابة الجمل في مربع النص، ولكن أيضًا عن طريق التحدث بصوت عالٍ أو تحميل صورة.

وفقًا لـ OpenAI، سيتم طرح الميزات الجديدة للمستخدمين الذين يدفعون مقابل ChatGPT خلال الأسبوعين المقبلين، وسيحصل المستخدمون الآخرون أيضًا على الميزات الجديدة "بعد فترة وجيزة".

يبدو جزء الدردشة الصوتية مألوفًا للغاية: تنقر على زر وتتحدث بسؤالك، ويقوم ChatGPT بتحويله إلى نص ويغذيه في نموذج لغة كبير، والذي يحصل بعد ذلك على الإجابة، ويحولها إلى كلام، وينطق الإجابة بصوت عالٍ. يبدو الأمر وكأنك تتحدث إلى Alexa أو Google Assistant، فقط OpenAI تأمل أن تكون الإجابات أفضل بفضل التحسينات في التكنولوجيا الأساسية. يبدو أن معظم المساعدين الافتراضيين يعتمدون على LLM في تحولهم، لكن OpenAI تقود الطريق.

يقوم نموذج Whisper الممتاز من OpenAI بالكثير من أعمال تحويل الكلام إلى نص، وتطلق الشركة نموذجًا جديدًا لتحويل النص إلى كلام تقول إنه يمكنه "إنشاء صوت يشبه الإنسان من النص وبضع ثوانٍ من عينات الكلام". يمكنك اختيار صوت ChatGPT من بين خمسة خيارات، ولكن يبدو أن OpenAI تعتقد أن النموذج لديه إمكانات أكثر من ذلك بكثير. على سبيل المثال، تعمل OpenAI مع Spotify لترجمة البودكاست إلى لغات أخرى مع الحفاظ على صوت البودكاست. هناك العديد من الاستخدامات المثيرة للاهتمام للكلام المركب، ويمكن أن يصبح OpenAI جزءًا مهمًا من الصناعة.

لكن حقيقة أن الأمر يستغرق بضع ثوانٍ فقط من الصوت لإنشاء صوت اصطناعي قادر يفتح الباب أيضًا أمام مجموعة متنوعة من حالات الاستخدام الإشكالية. وقالت الشركة في منشور مدونة تعلن فيه عن الميزات الجديدة: "تجلب هذه الميزات أيضًا مخاطر جديدة، مثل احتمال قيام جهات فاعلة ضارة بانتحال شخصيات عامة أو ارتكاب عمليات احتيال. ولهذا السبب، لا تستخدم OpenAI هذا النموذج على نطاق واسع: سيتم التحكم فيه بشكل أكثر إحكامًا وسيقتصر على حالات استخدام وشراكات محددة".

وفي الوقت نفسه، فإن البحث عن الصور يشبه إلى حد ما Google Lens. ما عليك سوى التقاط صورة لما يثير اهتمامك وسيقوم ChatGPT بمعرفة مشكلتك والرد وفقًا لذلك. يمكنك أيضًا استخدام أدوات الرسم الخاصة بالتطبيق للمساعدة في التعبير عن أسئلتك بوضوح، أو التحدث أو كتابة الأسئلة بناءً على الصور. هذا هو المكان الذي تساعد فيه طبيعة ChatGPT: يمكنك مطالبة الروبوت وتحسين إجابتك في نفس الوقت، بدلاً من البحث أولاً ثم البحث مرة أخرى بعد الحصول على إجابة خاطئة. (وهذا مشابه جدًا لما يفعله Google مع البحث متعدد الوسائط).

من الواضح أن البحث عن الصور له أيضًا مشاكله المحتملة. أحدها هو ما قد يحدث عندما تطالب روبوت الدردشة مع شخص ما: تقول OpenAI إنها تحد عمدًا من قدرة ChatGPT على "تحليل الأشخاص والتعبير عنهم بشكل مباشر" نظرًا لمخاوف الدقة والخصوصية. وهذا يعني أن واحدة من أكثر رؤى الخيال العلمي للذكاء الاصطناعي - وهي القدرة على النظر إلى شخص ما والقول: "من هذا؟" - لن تتحقق في أي وقت قريب. وربما هذا شيء جيد.

بعد مرور ما يقرب من عام على إصدار ChatGPT لأول مرة، يبدو أن OpenAI لا تزال تحاول معرفة كيفية توفير المزيد من الميزات والإمكانات لروبوتها دون تقديم مشاكل وعيوب جديدة. وفي هذه الإصدارات، حاولت الشركة تحقيق ذلك من خلال الحد من وظائف نماذجها الجديدة عمدًا. لكن هذا النهج لن ينجح إلى الأبد. مع تزايد عدد الأشخاص الذين يستخدمون التحكم الصوتي والبحث عن الصور، ومع تطور ChatGPT إلى مساعد افتراضي متعدد الوسائط ومفيد حقًا، سيصبح الحفاظ على حواجز الحماية أكثر صعوبة.