في منطقة مروج مغبرة في أبيلين، تكساس، عمل مهندسو الأجهزة من OpenAI وCrusoe، مقاول مركز بيانات Oracle، ساعات عمل إضافية لعدة أيام لجعل وحدات توربينات الغاز المتعددة تعمل بشكل مستقر باستخدام أغلى كمبيوتر فائق الذكاء الاصطناعي في التاريخ.

تم تركيب وحدة توربينات غازية بجوار مركز بيانات Stargate AI الذي أنشأته Oracle وOpenAI في أبيلين، تكساس.
تم تركيب وحدة توربينات غازية بجوار مركز بيانات Stargate AI الذي أنشأته Oracle وOpenAI في أبيلين، تكساس.

كشف عدد من الأشخاص المطلعين على المشروع والمهندسين المقيمين وخبراء شبكات الطاقة أن المشروع جزء من مشروع البنية التحتية لطاقة الحوسبة OpenAI Stargate، وأن صعوبة التنفيذ الشاملة واستثمار رأس المال تتجاوز التوقعات الأولية بكثير.

لطالما اعتبرت قاعدة أبيلين معيارًا لبناء مراكز بيانات الذكاء الاصطناعي العالمية. قامت شركة Oracle، عميل Crusoe، بنشر خوادم لـ OpenAI هنا، وتستهلك ما لا يقل عن مئات الميغاواط من الطاقة؛ وتخطط الشركة لنشر المزيد من الرقائق في المباني الجديدة هذا الصيف، بحمولة طاقة إجمالية تصل إلى 1.2 جيجاوات، وهو ما يكفي لدعم احتياجات الإضاءة لمدينة سان فرانسيسكو بأكملها.

لكن المشكلة الأولى هي ضمان إمدادات الطاقة دون انقطاع. قال أشخاص مطلعون على الأمر إنه بسبب مشاكل متعددة مثل فشل نظام التبريد، والشذوذ في وحدة التوربينات، ولوائح التحكم في تقلبات الشبكة الجديدة التي ستقدمها وكالة تنظيم شبكة الكهرباء في تكساس، اضطر كروزو إلى تعليق العمليات على مراحل لتجنب مخاطر متعددة على المعدات والقوى العاملة والأموال.

بالإضافة إلى الصعوبات التشغيلية المختلفة في موقع المشروع، تعاني جميع الشركات المصنعة للبنية التحتية للذكاء الاصطناعي من تكلفة خارجة عن السيطرة. قبل بضعة أسابيع، كشف الرئيس التنفيذي لشركة كروزو تشيس روكميلر في محاضرة ضيف في جامعة ستانفورد أن تكلفة بناء "محطة رئيسية مكهربة" لمركز بيانات بقدرة 1 جيجاوات تصل إلى 19.2 مليار دولار، وتغطي مواد البناء الرئيسية والمعدات الميكانيكية والكهربائية ودعم محطات توليد الطاقة بالغاز وجميع تكاليف العمالة.

وقد ارتفع هذا الرقم بشكل حاد مقارنة بأسعار المشاريع ذات المواصفات نفسها قبل عامين أو ثلاثة أعوام: في ظل طفرة حوسبة الذكاء الاصطناعي، زادت الأجور الفنية للمقاولين بشكل عام بنسبة 30٪، وشكلت تكاليف العمالة ما يقرب من ربع إجمالي الاستثمار. وقال روكميلر: "إن المنافسة على القوى العاملة الفنية في الصناعة لم تكن أكثر شراسة من أي وقت مضى".

كما ارتفعت تكلفة المعدات الداعمة الأخرى بشكل كبير. وأخبر الطلاب أن تكلفة محطة توليد الكهرباء التي تعمل بالغاز بقدرة جيجاوات واحدة تضاعفت ثلاث مرات تقريبًا في السنوات القليلة الماضية، لتصل إلى 3 مليارات دولار؛ وتُظهِر البيانات الصادرة عن بنك الاحتياطي الفيدرالي في سانت لويس أن أسعار المحولات والمفاتيح الكهربائية قد زادت بنسبة 80% منذ عام 2020. وتبلغ تكلفة شراء الرقائق ومعدات دعم الخوادم اللازمة لمركز بيانات بقدرة 1 جيجاوات حوالي 40 مليار دولار أمريكي.

في الوقت الحاضر، لم يتم الكشف عن خطة تقاسم التكاليف بين Crusoe وOracle وOpenAI والشركاء الآخرين؛ في حالة حدوث تجاوزات في الميزانية وتأخير في البناء، لا يوجد استنتاج واضح بشأن كيانات المسؤولية القانونية ذات الصلة. ورد متحدث باسم كروزو بأن ميزانية الشركة قد خصصت احتياطيات المخاطر جانبًا للتعامل مع حالات الطوارئ المختلفة.

هناك شيء واحد واضح للغاية: دورة بناء مراكز البيانات العالمية تطول بشكل عام، وتستمر العوامل الثلاثة لإطالة دورة الموافقة على استخدام الأراضي، ونقص المعدات الأساسية، ونقص العمالة في إبطاء التقدم. أصدر الاقتصاديون في بنك جيه بي مورجان تقريرا الشهر الماضي قال فيه إن صور الأقمار الصناعية تظهر أن أكثر من 60% من مراكز البيانات المقرر أصلا تشغيلها قبل عام 2027 لم تبدأ أعمال البناء بعد، كما تأخر 7% أخرى من الجداول الزمنية للمشروع، مما يشير إلى أن وتيرة توسع الصناعة قد تتباطأ.

كما كانت أعمال استكشاف الأخطاء وإصلاحها التي قام بها كروزو في قاعدة أبيلين بمثابة تحذير للصناعة بأكملها: لا يوجد مجال للإهمال في بناء مراكز بيانات فائقة الحجم بحجم جيجاوات. قد يؤدي أي خطأ إلى ارتفاع درجة حرارة الرقاقة وتلفها، أو كسر شفرات التوربينات وأعمدة القيادة، أو إصابة عمال البناء أو إصابتهم بسبب الصدمة الكهربائية، أو حرق المعدات الداعمة لشبكة الطاقة بالكامل.

الرئيس التنفيذي لشركة كروزو تشيس روكميلر
الرئيس التنفيذي لشركة كروزو تشيس روكميلر

الصعوبات المتعددة مثل اختناقات إمدادات الطاقة والقيود التنظيمية الجديدة هي أيضًا الأسباب الأساسية التي تجعل شركات الذكاء الاصطناعي مثل OpenAI وAnthropic تعلن أنها غير قادرة على الحصول على قوة حوسبة كافية من مراكز البيانات المبنية حديثًا وتكرار التقنيات الجديدة بالسرعة المتوقعة.

وقد تم تأسيس كروزو لمدة ثماني سنوات. في أيامها الأولى، اعتمدت على الطاقة المهدرة لتشغيل مناجم العملات المشفرة. وفي عام 2022، سوف يتحول بالكامل إلى مسار البنية التحتية للذكاء الاصطناعي. تجاوز تقييم الأسهم الخاصة للشركة 10 مليارات دولار أمريكي قبل سبعة أشهر، وتُظهر آخر الأخبار أنه من المتوقع أن تتراوح قيمة جولة التمويل قبل الاكتتاب العام الأولي بين 300 مليار دولار أمريكي و400 مليار دولار أمريكي. وقد أعطى المديرون التنفيذيون للشركات الذين عملوا مع كروزو مراجعات إيجابية لفريق إدارته، قائلين إن الفريق قام بتسريع كفاءة بناء الصناعة بشكل كبير وحل المشكلات المختلفة في تنفيذ المشروع والإشراف عليه بمرونة.

أصدر Crusoe رسميًا بيانًا قال فيه: "تختلف خصائص الطلب على الطاقة لأحمال حوسبة الذكاء الاصطناعي اختلافًا جوهريًا عن منطق تكييف التصميم لإمدادات الطاقة الاحتياطية التقليدية في صناعة الطاقة. وهذه مشكلة هندسية كبيرة يتعين على الصناعة بأكملها التغلب عليها. وقد حققت المشاريع التي قدمناها لعملائنا سوابق في الصناعة من حيث سرعة البناء وحجم التنفيذ، ونحن فخورون جدًا بذلك."

كشركة رائدة في مسار مركز بيانات الذكاء الاصطناعي، فإن المخاطر الخفية المختلفة التي كشفها مشروع كروزو تعادل إزالة الألغام مسبقًا للصناعة بأكملها. على غرار نشر Tesla السابق لبطاريات تخزين الطاقة لحل صدمات نبض الطاقة في مركز بيانات xAI (المدمج الآن في SpaceX).

وعلق مصنع محلي آخر للبنية التحتية في تكساس قائلاً إن كروزو تجرأ على التجربة والخطأ بسرعة وتكرار الحلول مقابل سرعة البناء القصوى، ولكن على حساب تكاليف الاستثمار المرتفعة. وأكد ذلك مهندس سابق في OpenAI مطلع على مشروع أبيلين. كشف المطلعون على المشروع أن حل إمداد الطاقة الاحتياطية الأولي للقاعدة لم يكن يتمتع بمقاومة كافية للتغيرات المفاجئة في الجهد وتذبذبات الطاقة، وكان على الفريق تعديل إصدارات متعددة من التصميم.

نظرًا لأن توربينات الغاز هذه تُستخدم فقط كطاقة احتياطية لمركز البيانات، فإنها لا تؤثر على اتصال الخط الرئيسي بين القاعدة وشبكة الطاقة العامة في تكساس. شريك المشروع Lancium هو المسؤول عن إنشاء المحطة الفرعية في الموقع. قال أشخاص مطلعون على فترة البناء إن التقدم المحرز في مشروع المحطة الفرعية يصل إلى المستوى القياسي أو حتى قبل الموعد المحدد، مما يضمن أن OpenAI يمكنها استخدام ما يصل إلى 1.2 جيجاوات من طاقة الشبكة الخارجية هذا الصيف.

ومع ذلك، فإن إمدادات الطاقة الكافية من الشبكة لا تعني أنه يمكن استخدام OpenAI وOracle بكامل طاقتهما على الفور. يحتاج المهندسون إلى إكمال اختبار آلة خبز شرائح الخادم وتحسين تصميم مصدر الطاقة ونظام التبريد في نفس الوقت لإكمال تصحيح أخطاء مجموعة الحوسبة بأكملها قبل الصيف. كشف مهندس سابق مشارك في المشروع أنه في وقت سابق من هذا العام، فشلت وحدة التبريد المستخدمة لمنع ارتفاع درجة حرارة خادم الشريحة والانصهار (فشل حراري هارب) في بيئة منخفضة الحرارة، مما تسبب في انقطاع طاقة الحوسبة لمدة يوم كامل تقريبًا.

مخاطر الخروج عن الشبكة

يتقلب استهلاك الطاقة لحمل حوسبة الذكاء الاصطناعي بشكل كبير بين المللي ثانية. تشير الأبحاث ذات الصلة إلى أن الإدارة والتحكم غير المناسبين سيؤدي إلى عدم تطابق التردد (التشويه التوافقي)، وإتلاف الأجهزة المنزلية ومعدات المحطات الفرعية، وتسريع فقدان البطارية الخاصة بمركز البيانات. بمجرد اكتشاف أي خلل في شبكة الطاقة، سيقوم مركز البيانات بفصل الشبكة بشكل استباقي لحماية نفسه. في عامي 2024 و2025، انقطعت الخدمة عن العشرات من غرف الكمبيوتر في "ممر مركز البيانات" في فرجينيا مرتين، مما أدى تقريبًا إلى انقطاع التيار الكهربائي الإقليمي.

في صيف وخريف عام 2024، استمرت مزرعة تعدين العملات المشفرة في غرب تكساس في التسبب في تذبذبات عنيفة في الطاقة في شبكة الكهرباء بسبب خلل في برنامج البرامج الثابتة. أعادت الشركة المصنعة كتابة البرنامج الثابت وتم حل الخطأ.

مشغلو شبكة الكهرباء في تكساس يقظون للغاية بشأن هذا الأمر. وفقًا لإحصائيات GridMonitor، وهي وكالة تتبع مؤتمرات شبكات الطاقة، هذا العام وحده، تم ذكر مصطلح "تذبذب الطاقة" 80 مرة في اجتماعات مختلفة لمجلس الاعتمادية الكهربائية في تكساس (ERCOT). وتقوم الوكالة بتنفيذ لوائح جديدة للتحكم في التشويه، مما يجبر مراكز البيانات على أن تكون مجهزة بأنظمة تخزين مؤقت للطاقة عالية الدقة وتثبيت الجهد. الحل السائد هو بطاريات تخزين الطاقة، كما تعمل الشركات المصنعة في نفس الوقت على تطوير حلول بديلة مثل مجموعات المولدات الصغيرة، والمكثفات، وخلايا الوقود.

هناك لائحة جديدة أخرى سيتم تنفيذها تتطلب أن تتمتع مراكز البيانات بالقدرة على تجاوز أخطاء الشبكة وعدم فصلها مباشرة عن الشبكة في حالة حدوث خلل. والخبر السار هو أن التصميم العام لمتنزه الجيل الجديد مجهز ببطارية عازلة لتخزين الطاقة أكثر كفاءة، كما تم أيضًا تكييف أجهزة الذكاء الاصطناعي الداعمة وتحسينها. وقال شون جيمس، مهندس نظام الطاقة في NVIDIA: "تواصل NVIDIA تحسين الدوائر المدمجة للخوادم لتحسين القدرة على تخزين نبضات الطاقة."

لقد ارتفع منع قوة حوسبة الذكاء الاصطناعي من التأثير على شبكة الكهرباء إلى مستوى الإشراف الموحد في أمريكا الشمالية. أصدرت شركة موثوقية الكهرباء في أمريكا الشمالية (NERC) تحذيرًا نادرًا من المستوى الثالث في 4 مايو، مما يتطلب من مخططي شبكات الطاقة تنفيذ تدابير التصحيح الأساسية قبل 3 أغسطس لإثبات أن شبكة الطاقة يمكنها حمل أحمال حوسبة جديدة كبيرة جدًا مثل مراكز بيانات الذكاء الاصطناعي.

قال جيم روب، الرئيس التنفيذي لشركة NERC: "لطالما آمن وادي السيليكون بالتجربة والخطأ السريعين، القديم والجديد، ولكن هذا المنطق لا ينطبق على شبكة الطاقة - فكل البنية التحتية لتشغيل المجتمع تعتمد على إمدادات الطاقة المستقرة. يجب أن يضمن وضع تشغيل مراكز البيانات والمناجم المشفرة الموثوقية الشاملة لشبكة الطاقة."

أجاب متحدث باسم Oracle: "إن ضمان استقرار شبكة الطاقة هو مبدأ التصميم الأساسي لمركز بيانات Oracle فائق الحجم. وقد تعاونت الشركة بشكل وثيق مع Lancium ونسقت مع شركات الطاقة المحلية لضمان التشغيل الآمن لشبكة الطاقة."