بقای دیتاسنتر پس از قطع طولانی اینترنت

بقای دیتاسنتر بعد از بی برقی
🔌 از تاریکی تا سیلاب: حقیقت بقای دیتاسنتر پس از قطعی اینترنت

🔌 از تاریکی تا سیلاب: حقیقت بقای دیتاسنتر پس از قطعی طولانی اینترنت

📌 چارچوب سریع: آیا پس از بازگشت اینترنت، دیتاسنتر با سیل داده مواجه می‌شود؟ خیر — ذخیره‌سازها ایمن هستند. آسیب واقعی: دیوارهای آتش، بالانس‌کننده‌ها و جدول اتصالات. مقیاس قطعی مهم نیست، الگو یکیست.

📊 افسانه‌ها در برابر واقعیت

باور غلطحقیقت فنی
«داده‌ها انباشته می‌شوند مثل پشت سد»در TCP بسته‌ها حذف می‌شوند، نه صف.
«قطع طولانی‌تر → سیل بزرگ‌تر»پس از ۳۰ ثانیه حجم سیل فرقی نمی‌کند.
«فضای ذخیره‌سازی دیتاسنتر غرق می‌شود»حداکثر افزایش نرخ بایت ۲ تا ۳ برابر عادی، آرایه‌ها تحمل می‌کنند.
«تمام داده‌های عقب افتاده بالاخره می‌رسند»صف‌های محلی بسیار کوچکاند (مگابایت)؛ داده از بین رفته است.

📍 پشت‌مانده داده‌ها کجا ذخیره می‌شود؟

منبع (دستگاه)اندازه صف معمولخطر سیل پس از وصل
گوشی هوشمند (iOS/Android)۱۰-۵۰ مگابایتبسیار کم
لپ‌تاپ (Outlook, Slack)۱۰۰ مگابایت - ۱ گیگابایتکم
سرور ایمیل سازمانی۱۰-۱۰۰ گیگابایتمتوسط
حسگر اینترنت اشیا۵۱۲ کیلوبایت - ۸ مگابایتنزدیک صفر
دوربین مداربسته NVRنامحدود (دیسک محلی)صفر (هرگز ارسال نمی‌شود)
↔️ برای دیدن تمام ستون‌ها اسکرول کنید.
📈 میزان افزایش ترافیک پس از بازگشت اینترنت (مقایسه نوع خطر)
🔴 اتصالات TCP جدید۱۰,۰۰۰%+
۱۰۰۰۰%
🟠 دست دادن TLS (SSL)۵,۰۰۰%
۵۰۰۰%
🟡 پرس و جوی DNS۳,۰۰۰%
۳۰۰۰%
🟢 ارسال HTTP POST (داده جدید)۱۵۰%
۱۵۰%
خطر بحرانی (اتصال‌ها) خطر بالا متوسط کم (فضای ذخیره‌سازی)
⚠️ نکته کلیدی: حجم بایت تولیدی تنها ~۱۵۰٪ افزایش می‌یابد، اما تعداد اتصالات جدید می‌تواند ۱۰۰ برابر شود → مشکل اصلی جدول اتصالات فایروال است، نه دیسک‌ها.

💥 ۵ آسیب پنهان که دیتاسنتر را واقعاً از کار می‌اندازد

تهدیدمکانیسمسطح خطرآسیب به ذخیره‌سازی؟
خستگی جدول اتصالاتفایروال حافظه کافی برای نشست‌های همزمان ندارد🔴 بحرانیخیر
همزمانی سراسری TCPتایمرهای ارسال مجدد هماهنگ می‌شوند → فروپاشی ریتمیک🟠 بالاخیر
ازدحام احراز هویتسرور OAuth/LDAP ۱۰۰ برابر بار عادی🟡 متوسطخیر
سرریز صف پیامصف RabbitMQ از حافظه بیرون می‌زند🟡 متوسطخیر (از دست رفتن داده)
انفجار ورود لاگ‌هاسیستم‌های مانیتورینگ (Splunk/ELK) دچار تأخیر ایندکس🟠 بالاجزیی (رقابت دیسک)

🧩 جدول بقا: کدام اجزا زنده می‌مانند؟

کامپوننتبازمانده پس از طوفان ۲۵۰ روزه؟حالت خرابی
آرایه‌های ذخیره‌سازی (SAN/NAS)✅ بلههیچ (نرخ بایت کنترل شده)
ذخیره‌سازی اشیاء (S3)✅ بلههیچ
فایروال (جدول نشست)❌ خیرخستگی حافظه
بالانس کننده بار❌ خیرسرریز صف اتصال
درگاه API⚠️ نسبیمحدودیت نرخ فرسایش
سرویس احراز هویت❌ خیرگرسنگی CPU
⏱️ آناتومی طوفان بازاتصال (۶ مرحله مرگبار)
فاز ۱: ۰-۵ ثانیهDNS flood
حجم عظیم درخواست DNS
فاز ۲: ۵-۳۰ ثانیهTCP SYN (دوستانه)
مرگ فایروال
فاز ۳: ۳۰-۱۲۰ ثانیهTLS avalanche
فشرده‌سازی CPU
فاز ۴: ۲-۱۰ دقیقهAPI storm
سرورهای اپلیکیشن
فاز ۵: ۱۰-۶۰ دقیقهصف پیام
سرریز بروکرها
🔴 فاز بحرانی: ثانیه ۵ تا ۳۰ 🟡 بقیه فازها با محدودیت نرخ قابل مهار

📚 شواهد واقعی (معادل ۲۵۰ روز)

🌍 مورد ۱: خاموشی AWS us-east-1 (دسامبر ۲۰۲۱)
مدت: ۹ ساعت · پس از بازگشت: افزایش ۴۸۰۰٪ اتصالات → بالانس‌کننده از کار افتاد، اما فضای ذخیره‌سازی EBS و S3 کاملاً بی‌تأثیر ماند.
🇲🇲 مورد ۲: قطعی اینترنت میانمار (۷ ماه)
بازگشت تدریجی، مشتریان دارای بک‌آف تصادفی بودند → خرابی عمده دیتاسنتر ثبت نشد.

🛡️ کتابچه بقا برای مهندسان

📊 شبیه‌سازی: نرخ اتصالات جدید پس از وصل مجدد
نرمال (پیش از قطعی)۱۰۰٪
۱۰۰%
دقیقه ۱ پس از وصل (بدون محدودیت)~۷,۲۰۰٪
۷۲۰۰%
با مکانیزم Rate Limit + تاخیر تصادفی~۵۰۰٪
۵۰۰%
🟢 محدودیت نرخ هوشمند بار اوج را تا ۹۳٪ کاهش می‌دهد

✅ نتیجه‌گیری نهایی: انبار داده غرق نمی‌شود

📌 ذخیره‌سازی شما ایمن است. سیل بایت‌ها باعث آسیب به SAN یا ذخیره‌سازهای شیء نمی‌شود.
🔥 فایروال‌ها و جدول اتصالات شما آسیب‌پذیرند. خستگی حافظه قاتل شماره یک است.
⚙️ ابزارهای پیروزی: محدودیت نرخ (Rate Limiting) + تأخیر تصادفی (Jitter) + مدارشکن. اینها را قبل از قطع پیاده‌سازی کنید.

📖 ۷ افسانه که برای همیشه دفن می‌شوند

اقدامابزار / تنظیماتتأثیر کاهش خطر
محدودیت نرخ اتصالات ورودیiptables limit , NGINX limit_connکاهش ۹۰٪ بار اوج
تاخیر تصادفی در سمت کلاینت (jitter)پیکربندی اپلیکیشن / DHCPپخش بار طی ساعات
فست فیل (رد سریع صف)RabbitMQ max-lengthجلوگیری از بمب حافظه
مدارشکن (Circuit breaker)Hystrix, Resilience4jمحافظت از سرویس‌های پایین‌دستی
افسانهحقیقت
"داده در مسیر قطع شده انباشته می‌شود"TCP بسته‌ها را حذف می‌کند، صف انبوهی وجود ندارد.
"هرچه قطعی طولانی‌تر باشد، سیلاب وحشتناک‌تر است"پس از ۳۰ ثانیه، حجم تئوریک سیلاب افزایش نمی‌یابد.
"فضای ذخیره‌سازی دیتاسنتر غرق می‌شود"نرخ بایت واقعی حداکثر ۲ تا ۳ برابر — آرایه‌ها تحمل دارند.
"ارتقاء ذخیره‌سازی مشکل را حل می‌کند"ذخیره‌سازی هرگز مشکل نبود، فایروال را ارتقا دهید.
"همه داده‌های از دست رفته برمی‌گردند"صف‌های محلی بسیار کوچک اند، داده مرده است.
🎯 رتبه‌بندی تهدیدات واقعی برای دیتاسنتر پس از قطعی اینترنت
خستگی جدول اتصالات فایروال۱۰/۱۰
بحرانی
همزمانی سراسری TCP۸.۵/۱۰
بالا
ازدحام لاگ‌ها / SIEM۷/۱۰
متوسط-بالا
سرریز صف پیام۶/۱۰
متوسط
آسیب به ذخیره‌سازی (دیسک)۱/۱۰
بسیار کم
🔴 مناطق تمرکز: فایروال و مدیریت اتصالات — نه هارددیسک