بالإضافة إلى لعب ألعاب الفيديو، فقد تعلم الذكاء الاصطناعي أيضًا قتل البشر بالذئب "بتأثير اجتماعي". ثمانية ChatGPTs "تجلس" معًا وتلعب خمسة أدوار بشكل واضح، تمامًا مثل الأشخاص الحقيقيين. تم إكمال تجربة محاكاة المجتمع البشري الأخيرة هذه بالاشتراك بين جامعة تسينغهوا ومختبر تشونغ قوان تسون.

من مدينة ستانفورد إلى شركة تسينغهوا للألعاب، كان استخدام الذكاء الاصطناعي لمحاكاة المجتمع البشري دائمًا موضوعًا بحثيًا ساخنًا في المجتمع الأكاديمي.

إذا قامت شركة Tsinghua Game بمحاكاة مشهد عمل الحيوانات الاجتماعية، فقد تمت الآن محاكاة الحياة الاجتماعية للحيوانات الاجتماعية في أوقات فراغها بواسطة الذكاء الاصطناعي.

في لعبة القتل بالذئب هذه المكونة من 8 ChatGPTs، ينعكس التنكر والثقة والقيادة والمواجهة في العالم الحقيقي بشكل واضح.

حتى بدون التدريس البشري، اكتشف الذكاء الاصطناعي العديد من مهارات اللعبة من خلال استكشافه الخاص.

كل هذا يمكن تحقيقه من خلال مطالبات التصميم دون الحاجة إلى ضبط المعلمات في النموذج.

إذن، ما هي المشاهد الرائعة في "عالم المستذئب" هذا؟ دعونا نلقي نظرة على ذلك معا.

يمكن إتقان الاستراتيجيات والمهارات دون أن يتم تدريسها

قبل عرض حوارات ChatGPT الثمانية هذه، دعونا نشرح أولاً تكوين اللعبة: قرويان واثنان من المستذئبين، وحارس واحد، وساحرة واحدة، ونبي واحد، بالإضافة إلى إله واحد.

أثناء التجربة، اكتشف الباحثون أن ChatGPT استخدم استراتيجيات لم يتم ذكرها صراحةً في تعليمات اللعبة ومطالباتها.

أيها الرجل الطيب، يمكنك أن تتعلم ذاتيًا دون أن تتعلم.

على وجه التحديد، تعكس محادثات ChatGPT السبعة الثقة والتمويه والمواجهة والقيادة في الألعاب البشرية.

أولا، دعونا نتحدث عن الثقة.

عرّف الباحثون الوافدين الجدد بأنهم يثقون في اللاعبين الآخرين ليكون لديهم نفس الأهداف التي لديهم ويعملون معًا لتحقيقها.

وتشمل المظاهر المحددة المشاركة النشطة للمعلومات التي تضر بالنفس، أو توحيد الجهود مع لاعبين آخرين لاتهام شخص ما بالعداء.

لاحظ الباحثون كيف تغيرت علاقات الثقة بمرور الوقت أثناء اللعبة.

في الصورة أدناه، تشير الدائرة الصفراء إلى أن اللاعب المرقم على اليسار يثق باللاعب المرقم أعلاه، وتمثل الدائرة المنقطة اختفاء علاقة الثقة.

لننظر إلى المواجهة، أي الإجراءات المتخذة ضد المعسكر المنافس، مثل مهاجمة المستذئبين للآخرين ليلاً أو اتهام الآخرين بأنهم مستذئبون نهارًا.

في أحد أيام اللعبة، طالب اللاعب رقم 1 (المستذئب) بطرد أهل القرية من رقم 5، لكن تم رفضه من قبل رقم 3 (الحارس).

عندما رأى الذئب فشل المؤامرة، قرر قتل رقم 5 مباشرة في الليل، لكن الحارس رقم 3 اختار حماية القرويين.

من هذا يمكننا أن نرى أن ChatGPTs لن تتبع بشكل أعمى ما يفعله اللاعبون الآخرون، ولكنها ستصدر أحكامًا مستقلة بناءً على المعلومات الموجودة.

بالإضافة إلى التعاون والمواجهة، يعد التنكر أيضًا مهارة أساسية في لعبة المستذئب، وهو مفتاح النصر.

على سبيل المثال، بعد يوم واحد من عشية عيد الميلاد، تظاهر المستذئب رقم 1 بأنه بريء.

بالإضافة إلى التظاهر بأنه شخص جيد، يمكن أيضًا استخدام التنكر لتحقيق أفكار اللاعب الصغيرة. على سبيل المثال، دعونا ننظر إلى خطاب النبي.

وذكر الرائي رؤية المستذئبين يتكلمون، لكن في الحقيقة المستذئبون لا يتكلمون في الليل.

وبحسب المؤلف، بعد التقييم، فإن هذه الظاهرة ليست وهمًا لـ ChatGPT، ولكنها مقصودة.

وأخيرا، دعونا نتحدث عن القيادة.

على الرغم من عدم وجود شخصيات منافسة في البيئة التي صممها فريق البحث، إلا أنه لا يزال بإمكان اللاعبين التحكم في عملية اللعبة.

على سبيل المثال، يحاول الذئبان رقم 1 ورقم 4 ضبط السرعة والسماح للاعبين الآخرين بمتابعة أفكارهم الخاصة.

ربما لخلق الفرص عن طريق أخذها على حين غرة.

يبدو أن ChatGPTs يتم لعبها بشكل جيد بالفعل.

إذًا، كيف قام فريق البحث بتدريب ChatGPTs التي يمكنها لعب دور المستذئب؟

دع ChatGPT يلخص تجربته الخاصة

هناك أربع نقاط رئيسية في الطريقة التي يقوم بها فريق البحث بتحسين أداء لاعبي ChatGPT، وهي المعلومات القيمة V، والأسئلة المختارة Q، وآلية الانعكاس R، والتفكير المتسلسل C.

تظهر نتائج تجربة الاجتثاث أن أزواج Q وC لهما التأثير الأكبر على عقلانية خطاب اللاعب (الذي يحكم عليه البشر).

تم تصميم Prompt أيضًا بناءً على هذا. وبالطبع يجب قبل ذلك التعريف بقواعد اللعبة، وأخيراً يتم تشكيل البنية التالية:

تقديم قواعد اللعبة وإعدادات الأدوار وسجلات الدردشة والمعلومات القيمة والخبرة والتفكير في الاقتراحات البشرية المقدمة إلى ChatGPT بناءً على الخبرة ونصائح حول سلاسل التفكير

وليس من الصعب أن نرى من هذا أن جمع المعلومات التاريخية وتلخيص التجارب منها يشكل حلقة وصل مهمة. فكيف ينبغي تلخيص هذه التجارب؟

في نهاية كل جولة لعبة، يتم جمع الاستجابات والأفكار والنتائج من جميع اللاعبين من قبل جميع المشاركين، مع تحديد النتائج حسب الانتصارات والخسائر.

في جولة جديدة من اللعبة، يسترد اللاعبون التجارب ذات الصلة ويستخرجون الاقتراحات بناءً على انعكاسات الشخصية الحالية.

على وجه التحديد، استنادًا إلى تقييمات التجارب، دع النموذج الكبير يقارن اختلافاته ويحدد التجارب الجيدة للاستدلال اللاحق.

بهذه الطريقة، يستطيع ChatGPT تعلم مهارات الألعاب دون تعديل المعلمات.

ومع ذلك، على الرغم من أهمية الخبرة، إلا أن الكثير منها ليس بالضرورة أمرًا جيدًا.

وجد الباحثون أنه عندما كان مقدار الخبرة كبيرًا جدًا، انخفض معدل فوز الجانب غير الذئب بالفعل، كما تم تقصير مدة اللعبة (عدد الأيام).

أتساءل ماذا ستكون النتيجة إذا سمحنا لـ ChatGPTs بالتنافس مع أشخاص حقيقيين؟

عنوان الورقة: https://arxiv.org/abs/2309.04658