وجدت دراسة حديثة نشرت في مجلة Nature Medicine أن ChatGPT Health، وهو برنامج دردشة آلي أطلقته OpenAI للسيناريوهات الطبية، غالبًا ما يقلل من خطورة حالات الطوارئ الطبية عند تصنيف الحالات. قام فريق البحث بإدخال 60 حالة طبية حقيقية في النظام ومقارنة توصيات الفرز مع أحكام ثلاثة أطباء بناءً على الإرشادات والخبرة.

وأظهرت النتائج أنه من بين الحالات التي قرر الأطباء ضرورة التوجه إلى قسم الطوارئ على الفور، حددت ChatGPT Health أن 51.6% منها قررت "أنها تستطيع رؤية الطبيب خلال 24 إلى 48 ساعة"، وهو ما يسمى "الدرجة المنخفضة". تشمل الحالات المصنفة على أنها حالات طوارئ الحماض الكيتوني السكري، وفشل الجهاز التنفسي الوشيك وغيره من الأمراض الخطيرة التي قد تؤدي إلى الوفاة إذا لم يتم علاجها على الفور. أشار أشوين راماسوامي، المؤلف الرئيسي للدراسة ومحاضر في جراحة المسالك البولية في مستشفى ماونت سيناي في مدينة نيويورك، إلى أن أي طبيب لديه بعض التدريب سيفترض أنه يجب نقل هؤلاء المرضى إلى قسم الطوارئ على الفور، ولكن يبدو أن برنامج الدردشة الآلي "ينتظر أن تصبح الحالة خطيرة بشكل لا يمكن إنكاره" قبل التوصية بالرحلة. ومع ذلك، بالنسبة لحالات الطوارئ مثل السكتة الدماغية، والتي لها أعراض نموذجية جدًا، حققت ChatGPT Health تصنيفًا دقيقًا بنسبة 100٪ في هذه الدراسة.

نظرت الدراسة أيضًا في كيفية أداء النظام في ظل خصائص ديموغرافية مختلفة: تم تقسيم كل حالة إلى 16 متغيرًا، مع تغيير جنس المريض وعرقه ومعلومات أخرى، ولكن حسب التصميم، يجب أن تكون الاستنتاجات هي نفسها بغض النظر عن المتغير. ولم تجد الدراسة أي دليل على وجود تحيز منهجي في النتائج حسب الجنس أو العرق.

وجدت الدراسة أيضًا أن ChatGPT Health لديها مشكلة معاكسة مع الحالات غير العاجلة: فقد "تجاوزت" 64.8% من الحالات غير العاجلة مقارنة بالأطباء، مثل مطالبة مريض كان يعاني من التهاب في الحلق لمدة ثلاثة أيام فقط بفحصه في غضون 24 إلى 48 ساعة عن طريق الرعاية المنزلية. وقال راماسوامي إنه يجد صعوبة في رؤية المنطق الكامن وراء توصيات النموذج في سيناريوهات مختلفة، قائلاً إن أحكام المخاطر الخاصة به كانت "نوعًا ما معكوسة، وعلى العكس تقريبًا" من المخاطر السريرية.

كان أداء ChatGPT Health غير متسق بالمثل في المواقف التي تنطوي على التفكير في الانتحار أو خطر إيذاء النفس. تنص سياسة OpenAI على أنه عندما يعبر المستخدم عن أفكار انتحارية، يجب على برنامج الدردشة الآلي توجيهه للاتصال بالرقم 988، والخط الساخن الوطني للانتحار والأزمات، وتتبع ChatGPT Health نفس الآلية. لكن في هذه الدراسة، اقترح النظام أحيانًا الاتصال بالرقم 988 عندما لا تكون هناك حاجة إليه، لكنه فشل في تقديم النصيحة عندما كان ذلك ضروريًا حقًا.

وردًا على استنتاجات الدراسة، قال متحدث باسم OpenAI إن الشركة ترحب بالأبحاث حول تطبيق الذكاء الاصطناعي في المجال الطبي، لكنها تعتقد أن تصميم هذه الدراسة لا يمثل الاستخدام النموذجي أو سيناريوهات الاستخدام المتوقعة لـ ChatGPT Health. وفقًا لـ OpenAI، يشجع نموذج التفاعل الخاص بـ ChatGPT Health المستخدمين على الاستمرار في طرح الأسئلة لتوفير المزيد من المعلومات الأساسية، بدلاً من الاعتماد عليه لإصدار حكم لمرة واحدة على وصف واحد. في الوقت الحالي، لا يزال ChatGPT Health مفتوحًا فقط لعدد محدود من المستخدمين. تواصل OpenAI تحسين أمان وموثوقية النموذج ولم تقم بالترويج له بشكل كامل بعد. تؤكد المعلومات الرسمية أيضًا أن المنتج "ليس للتشخيص أو العلاج"، ولكنه مبني على منصة أكثر أمانًا تسمح للمستخدمين بتحميل معلومات طبية شخصية أكثر حساسية.

أظهر تقرير صادر عن OpenAI في يناير من هذا العام أن أكثر من 40 مليون شخص حول العالم استخدموا ChatGPT للإجابة على الأسئلة المتعلقة بالصحة. هناك ما يقرب من 2 مليون محادثة تتعلق بالتأمين الطبي كل أسبوع. تتم الغالبية العظمى من الاستشارات الصحية خارج ساعات الاستشارة المعتادة للأطباء، وتأتي أكثر من 500000 رسالة أسبوعيًا من مناطق تبعد أكثر من 30 دقيقة بالسيارة عن المستشفى. ويشير الباحثون إلى أن أدوات الذكاء الاصطناعي جذابة للغاية لهؤلاء الأشخاص لأن تكلفة الحصول عليها منخفضة، ولا يوجد حد لعدد الأسئلة والأجوبة، ويمكن للمستخدمين تحميل جميع المستندات والتفاصيل التي يريدون مناقشتها. من وجهة نظر راماسوامي، يبحث العديد من الأشخاص عن أكثر من مجرد نصيحة، ولكن أيضًا عن تجربة تفاعلية "للرفيق الطبي".

ومع ذلك، حذر العديد من الخبراء الذين لم يشاركوا في البحث من أنه لا ينبغي المبالغة في تقدير القدرات الطبية لروبوتات الدردشة الحالية. وقال جون مافي، طبيب الباطنة في النظام الصحي بجامعة كاليفورنيا، إن أي منتج طبي يعتمد على الذكاء الاصطناعي ويؤثر على سلامة الحياة يجب أن يخضع لتجارب عشوائية محكومة صارمة لإثبات أن الفوائد تفوق المخاطر قبل الترويج له على نطاق واسع. يعتقد الخبراء عمومًا أن روبوتات الدردشة يمكن أن توفر معلومات صحية مفيدة في العديد من السيناريوهات، ولكن لا يزال من الصعب استبدال حكم الأطباء وجهًا لوجه.

أشارت مونيكا أغراوال، الأستاذة المساعدة في قسم الإحصاء الحيوي وعلوم الكمبيوتر بجامعة ديوك، إلى أن العالم الخارجي لا يزال يفتقر إلى الفهم الشفاف لبيانات التدريب وأساليب التدريب لنماذج اللغة واسعة النطاق، والعديد من مؤشرات التقييم الحالية (مثل الدرجات العالية في اختبارات الترخيص) لا تمثل بشكل مباشر قدرتهم الطبية الحقيقية. وذكرت أيضًا أن نماذج اللغة الكبيرة هي "قوادة" وتميل إلى تكرار آراء المستخدم، حتى لو كانت تلك الآراء غير دقيقة، مما قد يعزز سوء الفهم والأحكام المسبقة لدى المرضى. وأضاف مافي أن أدوات الذكاء الاصطناعي "مصممة لإرضائك"، لكن الأطباء يضطرون أحيانًا إلى قول أشياء لا يرغب المرضى في سماعها.

وفيما يتعلق بسؤال ما إذا كان من الآمن الاعتماد على روبوتات الدردشة لتقديم المشورة الطبية، فإن وجهة نظر راماسوامي هي أن الإجابة، على الأقل في المرحلة الحالية، هي لا، خاصة في حالات الطوارئ، لا ينبغي الاعتماد على الذكاء الاصطناعي، ولكن يجب الاتصال بالأطباء أو خدمات الطوارئ أولا. يعتقد إيثان جوه، المدير التنفيذي لـ ARISE، وهي شبكة أبحاث للذكاء الاصطناعي في سنغافورة، أنه في العديد من المواقف المحددة، يمكن للذكاء الاصطناعي بالفعل تقديم اقتراحات آمنة وممكنة، ولكن المفتاح هو أن المستخدمين يجب أن يكونوا على دراية بحدوده ويجب ألا ينظروا إليه كبديل للأطباء. ويؤكد الخبراء أن الاتجاه المستقبلي الأكثر أمانًا هو استخدام الذكاء الاصطناعي بالتعاون مع الأطباء، مع التنظيم المستمر وتحسين الأدوات من خلال التعاون الوثيق بين المؤسسات الطبية وشركات التكنولوجيا.

وقال راماسوامي إنه إذا استمرت قدرات النموذج في التحسن، فإن إنشاء علاقة تعاون ثلاثية الأطراف "المريض والذكاء الاصطناعي والطبيب" في المناطق النائية أو سيناريوهات الصحة العالمية ذات الموارد الطبية النادرة قد يحقق فوائد ملموسة للمرضى. ولكن قبل ذلك، فإن كيفية إجراء تقييم صارم بما فيه الكفاية ووضع قيود على هذه الأنظمة قبل اتخاذ القرارات التي تؤثر حقًا على الحياة لا تزال مشكلة صعبة تواجه الصناعات الطبية والتكنولوجية.