تثير موثوقية الخدمة السحابية إنذارًا آخر: تكشف Cloudflare عن تفاصيل حادث انقطاع الخدمة لمدة 5 ساعات

لقد دقت موثوقية الخدمة السحابية ناقوس الخطر مرة أخرى. في 18 نوفمبر بالتوقيت المحلي، شهدت شركة Cloudflare العملاقة للبنية التحتية للإنترنت انقطاعًا في الخدمة، مما أدى إلى عدم إمكانية الوصول إلى العديد من مواقع الويب الرئيسية حول العالم. وفقًا لوكالة تتبع فشل موقع الويب Downdetector (لم يكن من الممكن الوصول إلى الموقع نفسه لبعض المستخدمين في السابق)، تأثر كل من Anthropic's Claude chatbot، وTrump's Truth Social، ومنصة الوسائط الاجتماعية X الخاصة بـ Musk، كما أصيبت بعض الخدمات الرقمية لنظام New Jersey Transit System في الولايات المتحدة بالشلل أيضًا بسبب الانقطاعات.

وفي الوقت نفسه، أظهرت صفحة حالة OpenAI أيضًا في وقت لاحق من اليوم أن ChatGPT وتطبيق الفيديو القصير Sora الخاص به قد تعافى بالكامل بعد الفشل بسبب مشكلة "مزود خدمة تابع لجهة خارجية".

تأسست Cloudflare في جامعة هارفارد في عام 2009 وأطلقت النسخة التجريبية الأولى رسميًا في عام 2010. وتم إدراجها في بورصة نيويورك في عام 2019 وتخدم حاليًا 30% من شركات Fortune 1000. تشمل خدماتها الأساسية DDoS (رفض الخدمة الموزعة للدفاع)، وهو هجوم يغمر موقع الويب المستهدف بعدد كبير من الطلبات الكاذبة ويشله. وفقًا لتقارير وسائل الإعلام الأجنبية، تغطي خدمات إدارة حركة المرور والحماية الأمنية للشركة حوالي 20٪ من حركة المرور على الإنترنت.

متأثرًا بالحادث، انخفض سعر سهم Cloudflare بنسبة 2.83% عند إغلاق سوق الأسهم الأمريكية في الثامن عشر.

قال ماثيو برينس، المؤسس المشارك والرئيس التنفيذي لشركة Cloudflare، إن هذا هو أخطر انقطاع في Cloudflare منذ عام 2019. "انقطاع اليوم غير مقبول... نيابة عن فريق Cloudflare بأكمله، أود أن أعتذر عن المشكلة التي حدثت للإنترنت."

رسائل الخطأ على مواقع الويب المتأثرة

نشر أيضًا Dane Knecht، المدير التنفيذي للتكنولوجيا في Cloudflare، على منصات التواصل الاجتماعي، معتذرًا بشدة عن الفشل، قائلًا إن الحادث نتج عن دعم الشركة لاكتشاف خلل محتمل في خدمة ذات وظيفة تخفيف الروبوتات، والتي بدأت في التعطل بعد إجراء تغييرات روتينية في التكوين، مما أدى إلى تدهور واسع النطاق في الشبكة والخدمات الأخرى، بدلاً من أن يكون سببه هجوم.

وقال كنشت إن انقطاع التيار الكهربائي وتأثيره ووقت التعافي غير مقبول. "نحن نعمل على ضمان عدم تكرار هذا الأمر مرة أخرى، ولكننا نعلم أن هناك تأثيرًا حقيقيًا. إن الثقة التي منحنا إياها عملاؤنا هي أثمن أصولنا وسنبذل كل ما في وسعنا لاستعادتها."

لقطة شاشة لتغريدة Cloudflare CTO Dane Knecht

في صباح يوم 19 نوفمبر بالتوقيت المحلي، أصدرت Cloudflare تقريرًا كاملاً، يصف بالتفصيل الحادث الذي استمر لما يقرب من 5 ساعات: بدأ التأثير في الساعة 11:28 صباحًا يوم 18 بالتوقيت المحلي، وتم ملاحظة أخطاء لأول مرة على حركة مرور HTTP الخاصة بالعميل؛ وفي الساعة 14:30، تم حل التأثير الرئيسي، وبدأت الخدمات المتأثرة في المراحل النهائية في ملاحظة انخفاض في الأخطاء، وبدأت معظم الخدمات في العمل بشكل صحيح؛ في الساعة 17:06، تم إعادة تشغيل جميع الخدمات النهائية، وتم استعادة جميع العمليات بالكامل، وانتهى التأثير.

قالت Cloudflare إنه في وقت الفشل، "اشتبهت الشركة خطأً في البداية في أن الأعراض التي ظهرت كانت ناجمة عن هجوم DDoS واسع النطاق للغاية"، ثم حددت المشكلة الأساسية بشكل صحيح فيما بعد - تغير سلوك استعلام ClickHouse الأساسي الذي أنشأ هذا الملف. يحتوي الملف على عدد كبير من أسطر "التوقيع" المتكررة، مما تسبب في حدوث خطأ في وحدة إدارة الروبوتات، مما تسبب في قيام نظام الوكيل الأساسي بإرجاع رمز خطأ HTTP 5xx لأي حركة مرور تعتمد على هذه الوحدة. في الوقت نفسه، عندما تم نشر ملف خطأ يحتوي على حد متجاوز لعدد الميزات إلى الخادم، تم إطلاق حالة من الذعر في نظام Cloudflare. بالإضافة إلى ذلك، يؤثر هذا أيضًا على خدمات Workers KV وAccess التي يعتمد عليها عملاء الشركة على الوكلاء الأساسيين.

قامت Cloudflare لاحقًا بحل المشكلة عن طريق إيقاف إنشاء ونشر ملفات التوقيع السيئة وإدراج ملف معروف جيدًا يدويًا في قائمة انتظار توزيع التوقيع، ثم فرض إعادة تشغيل الوكيل الأساسي، وإرجاع عدد رموز الخطأ 5xx إلى الوضع الطبيعي.

الجدول الزمني لانقطاع Cloudflare

وقالت Cloudflare: "نظرًا لأهمية Cloudflare في النظام البيئي للإنترنت، فإن أي تعطيل لأي من أنظمتنا أمر غير مقبول"، واعتذرت عن التأثير على العملاء والإنترنت ككل.

وقالت Cloudflare إن الشركة بدأت في دراسة كيفية تعزيز النظام لمنع حدوث أعطال مماثلة في المستقبل، بما في ذلك تعزيز معالجة استيعاب ملفات التكوين التي تم إنشاؤها بواسطة Cloudflare بنفس طريقة المدخلات التي ينشئها المستخدم؛ تمكين المزيد من مفاتيح التوقف في حالات الطوارئ العالمية للوظائف؛ القضاء على احتمالية عمليات التفريغ الأساسية أو تقارير الأخطاء الأخرى التي تستنفد موارد النظام؛ مراجعة أوضاع الفشل لظروف الخطأ في جميع وحدات الوكيل الأساسية.

وفقًا لتقارير وسائل الإعلام الأجنبية، قبل أقل من شهر من وقوع الحادث، شهدت خدمة Amazon Cloud Service انقطاعًا لمدة يوم كامل أدى إلى شل العديد من خدمات الشبكة. وفي وقت لاحق، شهدت خدمة Microsoft Azure Cloud Service و365 Office Suite أيضًا انقطاعات في الخدمة على مستوى العالم.

في وقت مبكر من يوليو 2024، تسببت شركة الأمن السيبراني CrowdStrike في فشل نظام واسع النطاق بسبب تحديث برنامج معيب، مما تسبب في ردود فعل متسلسلة مثل تأجيل الرحلات الجوية، وحظر الخدمات المالية، وتأخير العمليات الجراحية في المستشفيات.