الذكاء الاصطناعي (AI) ليس جاهزًا ليحل محل مدير الصندوق الخاص بك، وتوضح سلسلة من الاختبارات العامة السبب. في سلسلة جديدة من المسابقات التجارية التي تتضمن نماذج الذكاء الاصطناعي الرائدة في العالم، لم يكن أداء الذكاء الاصطناعي حتى الآن رائعًا. عانت معظم الأنظمة من الخسائر. إنهم يتداولون بشكل متكرر للغاية ويتخذون قرارات مختلفة تمامًا عند تلقي نفس التعليمات بالضبط . ولا أحد يعرف حتى الآن ما إذا كانت هذه العيوب سوف تختفي مع ترقية النموذج بشكل متكرر، أو ما إذا كانت تكشف عن فجوة جوهرية بين نماذج اللغة الكبيرة وكيف تعمل الأسواق فعليا.

خذ Alpha Arena التي تديرها شركة التكنولوجيا الناشئة Nof1 كمثال. تضع المنصة ثمانية أنظمة رئيسية متطورة للذكاء الاصطناعي في مواجهة بعضها البعض في أربع مسابقات، بما في ذلك Anthropic's Claude، وGoogle's Gemini، وChatGPT من OpenAI، وGrok من Elon Musk. تم تمويل كل نظام بمبلغ 10000 دولار قبل كل مباراة، ثم تم تداول أسهم التكنولوجيا الأمريكية بشكل مستقل لمدة أسبوعين. وتشمل التحديات التداول على إشارات متعددة، واعتماد استراتيجيات دفاعية، والرد على أداء المنافس، والعمل برافعة مالية عالية.

وانتهى الأمر بالمحفظة الإجمالية بخسارة حوالي ثلث أموالها. ومن بين جميع مجموعات النتائج الـ 32، حقق النموذج ربحية 6 مرات فقط. يحقق Grok 4.20 أعلى النتائج في التحدي الذي يوفر نظرة ثاقبة لأداء المنافسين. لقد قامت بـ 158 معاملة فقط؛ وأجرت شركة Qianwen التابعة لشركة علي بابا 1418 معاملة تحت نفس الموجه.

تعد Alpha Arena مجرد واحدة من عدد متزايد من التجارب ذات الصلة. تختبر هذه التجارب ما إذا كانت النماذج اللغوية الكبيرة قادرة على القيام بالمهمة الأكثر صعوبة في مجال التمويل: التغلب على السوق. ورغم أن المسابقات بعيدة كل البعد عن الدقة الأكاديمية، إلا أنها تمثل العرض الأكثر علنية حتى الآن لما يحدث عندما تحاول هذه الأنظمة تولي بعض الوظائف الأكثر ربحية وخطورة في وول ستريت.

السبب وراء أهمية هذه النتائج الأولية هو أن التداول هو أحد الوظائف القليلة في مجال التمويل التي لا تزال حذرة من تسليمها بالكامل إلى الذكاء الاصطناعي. في السنوات القليلة الماضية، استخدم عمالقة الصناعة، من JPMorgan Chase إلى Balyasny Asset Management، هذه التكنولوجيا في كل الجوانب الأخرى تقريبًا. واليوم، تُستخدم نماذج اللغة الكبيرة في المؤسسات الكمية لتحليل الأخبار، وفي صناديق التحوط لصياغة المذكرات، وفي البنوك الكبيرة لتحديد الاحتيال، وغير ذلك الكثير. ولكن عندما يتعلق الأمر بمعاملات الذهب والفضة الحقيقية، فإن "المشاركة البشرية" لا تزال هي عقيدة الصناعة، ويبدو الأمر مفهوماً.

مؤسس Nof1 جاي أزهانج
مؤسس Nof1 جاي أزهانج

مؤسس Nof1 جاي أزهانج قال: "في الواقع، نماذج اللغات الكبيرة في حد ذاتها لا يمكنها كسب المال حقًا. أنت في الأساس بحاجة إلى مجموعة معقدة جدًا من أطر القيود وأنظمة الدعم ومنصات البيانات لمنحهم فرصة للعب."

قال إن نماذج اللغات الكبيرة جيدة في إجراء الأبحاث كما أنها جيدة في العثور على الأدوات المناسبة واستدعاءها لمهام معينة. لكنهم ما زالوا لا يعرفون مدى أهمية كل من المتغيرات العديدة التي تؤثر على تحركات أسعار الأسهم، بما في ذلك تقييمات المحللين، والتداول من الداخل والتغيرات في معنويات السوق. إنهم يميلون إلى إساءة توقيت التداولات، وحجم المراكز بشكل غير صحيح، والشراء والبيع بشكل متكرر.

قامت مدونة AI Flat Circle بتتبع 11 منصة تنافسية ذات صلة بالسوق، وجميعها لديها نموذج واحد على الأقل مربح. ولكن من بين هذه المنصات الإحدى عشرة، لم يحقق سوى نموذجين متوسطين من المنصات الربحية، مما يشير إلى أن معظم النماذج تكافح للتغلب على السوق.

تتوافق هذه النتيجة مع الأداء البشري، لأنه من المعروف أن معظم الصناديق المدارة بنشاط يكون أداؤها أيضًا أقل من أداء السوق. وكما هو الحال مع البشر، فإن هذه النماذج عرضة للتحيزات الكبيرة. وقد أظهرت العديد من المسابقات أن أنظمة الذكاء الاصطناعي تتخذ قرارات مختلفة تمامًا عندما تعطى نفس التعليمات، الأمر الذي له آثار كبيرة على المؤسسات التي تنشرها. أعطى Azhang مثالا. في الجولة الأخيرة من المنافسة في Alpha Arena، كان كلود يميل في الغالب إلى الشراء، ولم يكن Gemini ينفر من البيع على المكشوف، وكان Qianwen أكثر استعدادًا لتحمل المخاطر بمساعدة الرافعة المالية العالية.

قال دوج كلينتون، الذي يدير شركة Intelligent Alpha: "إن لديهم "شخصيتهم" الخاصة، ويجب عليك إدارتهم تمامًا مثل المحلل البشري". وقال إنه يمكن تحسين النتائج إذا تم إعلام النماذج بأنها تظهر تحيزات معينة. تمتلك Intelligent Alpha صندوقًا مدعومًا بنماذج لغوية كبيرة تنشر معيارها الخاص حول مدى جودة توقع الذكاء الاصطناعي لأرباح الشركات.

يوفر معيار Intelligent Alpha 10 نماذج للذكاء الاصطناعي مع إمكانية الوصول إلى الملفات المالية، وتوقعات المحللين، ودقائق مكالمات الأرباح، وبيانات الاقتصاد الكلي، وما يصل إلى 10 عمليات بحث على الويب. تؤدي النماذج اللغوية الكبيرة أداءً أكثر قوة في هذا الاختبار نظرًا لتركيزها الأضيق. في الربع الأخير من عام 2025، وصلت دقة ChatGPT من OpenAI في الحكم على اتجاه التغيرات المتوقعة في الأرباح إلى 68%، مما يمثل أفضل نتيجة حتى الآن. وقالت كلينتون إن هذه النماذج تستمر عادة في التحسن مع كل إصدار جديد.