طرح نفس السؤال 10 مرات سيجعل ChatGPT يشكك في حياتك ويتناقض مع نفسك مرات عديدة

أظهرت دراسة حديثة من جامعة ولاية واشنطن في الولايات المتحدة أنه عند مواجهة تأكيدات علمية معقدة، فإن نموذج اللغة الكبير ChatGPT غالبًا ما "يخمن الإجابة" على الرغم من أن إجاباته تبدو واثقة جدًا. لا يقتصر الأمر على أن دقتها محدودة الدقة فحسب، بل إنها أيضًا غير متسقة مع نفس السؤال، مما يجعل من الصعب بشكل خاص تحديد المعلومات الخاطئة.

قاد البحث مسعود جيجيك، الأستاذ المشارك في قسم التسويق والأعمال الدولية في كلية إدارة الأعمال بجامعة ولاية واشنطن. استخرج هو وفريقه عددًا كبيرًا من البيانات الافتراضية من أوراق البحث العلمي وقدموها مرارًا وتكرارًا إلى ChatGPT، مطالبين إياها بالحكم على ما إذا كانت هذه البيانات مدعومة بالأبحاث الحالية. في جوهر الأمر، دع الذكاء الاصطناعي يصدر أحكامًا حول "صواب أو خطأ". اختار الباحثون إجمالي 719 فرضية بحثية من أوراق مجلات الأعمال منذ عام 2021، وقدموا كل فرضية إلى ChatGPT 10 مرات لفحص مدى اتساق إجاباتها.

في التجربة الأولى، التي أجريت في عام 2024، كان ChatGPT صحيحًا "ظاهريًا" بنسبة 76.5% من الوقت؛ وعندما تكررت التجربة في عام 2025، ارتفع هذا الرقم قليلاً إلى 80%. ومع ذلك، بعد إزالة العامل "الأعمى" وتعديل النتائج إحصائيًا بناءً على التخمين العشوائي، وجد فريق البحث أن الأداء الفعلي للنموذج كان أعلى بحوالي 60% فقط من الإجابة العشوائية بـ"رمي عملة معدنية"، وهي بعيدة كل البعد عن الموثوقية. وفي نظر الباحثين، فهو أقرب إلى "درجة D ذات الدرجات المنخفضة". خاصة فيما يتعلق بتحديد البيانات الكاذبة، فإن أداء ChatGPT ضعيف بشكل خاص، حيث يبلغ معدل الحكم الصحيح 16.4% فقط لـ "الافتراضات الكاذبة".

قضية الاتساق هي أيضا بارزة. حتى لو تم تكرار السؤال عدة مرات تحت نفس الكلمات السريعة، فإن ChatGPT لا يعطي دائمًا نفس النتيجة. وأشار جيجيك إلى أنه من بين 10 أسئلة وأجوبة متكررة، حافظ النموذج على إجابات متسقة في حوالي 73% فقط من الحالات. في بعض الأمثلة المحددة، من بين الإجابات العشرة لنفس الفرضية، سيظهر ChatGPT في حالة "تناوب الصواب والخطأ"، وحتى الوضع المتطرف المتمثل في "نصف الإجابات صحيحة ونصف الإجابات خاطئة".

يعتقد مؤلفو الدراسة، التي نشرت في مجلة Rutgers Business Review، أن النتائج تسلط الضوء على الحاجة إلى الحذر الشديد عند استخدام الذكاء الاصطناعي التوليدي في مجالات صنع القرار المهمة، خاصة تلك التي تنطوي على تفكير معقد وفروق دقيقة. وأكد جيجك أن النماذج اللغوية الحالية واسعة النطاق يمكنها الإجابة على الأسئلة بلغة بطلاقة ومقنعة للغاية، لكن هذا لا يعني أن لديهم "قدرات فهم" حقيقية. وقال: "إن أدوات الذكاء الاصطناعي الحالية لا تفهم العالم بنفس الطريقة التي يفهمها البشر، فهم لا يملكون "أدمغة" حقًا". "إنهم في الغالب يحفظون ويطابقون، الأمر الذي يمكن أن يوفر بعض المعرفة، لكنهم لا يعرفون حقًا ما الذي يتحدثون عنه."

فيما يتعلق بالطريقة المحددة، أكمل جيجك فريق البحث بالتعاون مع سيفينجول أولو من جامعة جنوب إلينوي، وكان أوسلاي من جامعة روتجرز، وكيت كارنيوشينا من جامعة نورث إيسترن. وقد اختاروا فرضيات بحثية من 719 مقالة في مجلات الأعمال. غالبًا ما تتأثر مثل هذه الفرضيات بمتغيرات متعددة. الحكم على ما إذا كانت الدراسة "تدعم" فرضية معينة هو في حد ذاته عملية تفكير معقدة للغاية. إن ضغط هذا التعقيد في حكم بسيط بـ "نعم/لا" يعد اختبارًا صعبًا لقدرة الأداة على الفهم والتفكير.

ومن الجدير بالذكر أن الفريق اختبر الإصدار المجاني من ChatGPT-3.5 في عام 2024 والإصدار ChatGPT-5 mini المحدث في عام 2025. وأظهرت النتائج أن الأداء العام لجيلين من النماذج في هذه المهمة كان متشابهًا. وبعد التعديل لعامل التخمين العشوائي، كان تحسن النموذج مقارنة باحتمالية "التخمين" البالغة 50% في كلا التجربتين حوالي 60% فقط.

وأشارت الدراسة كذلك إلى أن هناك فجوة كبيرة بين "الطلاقة اللغوية" و"القدرة على التفكير الحقيقي" لنماذج اللغة الكبيرة. يمكن لهذه الأنظمة أن تنتج نصوصًا جيدة التنظيم ومُصاغة بشكل طبيعي ومقنعة، لكنها غالبًا ما تواجه صعوبة في إصدار أحكام منطقية أعمق، ووزن الأدلة، وتحديد المعلومات الخاطئة، مما قد يؤدي إلى إجابات تبدو صحيحة ولكنها في الواقع إشكالية.

بناءً على النتائج المذكورة أعلاه، يوصي الباحثون بأن يقوم مديرو الأعمال وصناع القرار دائمًا بالتحقق من نتائج المخرجات والحفاظ على الشك اللازم عند استخدام أدوات الذكاء الاصطناعي التوليدية مثل ChatGPT. كما دعوا إلى زيادة تدريب المستخدمين داخل المؤسسات لمساعدة الموظفين على فهم نقاط القوة والقيود في هذه الأدوات وتجنب النظر إليها على أنها بدائل "موثوقة" للحكم المهني. وأشار جيجيك إلى أنه على الرغم من أن موضوع هذه الدراسة كان ChatGPT، إلا أن أنظمة الذكاء الاصطناعي المماثلة الأخرى أدت نفس الشيء تقريبًا في الاختبارات ذات الصلة. يكمل هذا العمل أيضًا البحث السابق حول "الضجيج الزائد للذكاء الاصطناعي". على سبيل المثال، أظهر استطلاع وطني أجري عام 2024 أنه عندما تؤكد الشركات على "مدعومة بالذكاء الاصطناعي" في التسويق، فإن ذلك يقلل في الواقع من نية الشراء لدى بعض المستهلكين.

قال جيجك: "مهما كان الأمر، كن متشككا". "أنا لست ضد الذكاء الاصطناعي، أنا أستخدمه بنفسي، لكن عليك أن تكون حذرًا للغاية معه."