Hacker News Digest

22 августа 2025 г. в 04:14 • blog.cloudflare.com • ⭐ 184 • 💬 36

OriginalHN

#cloudflare#aws#us-east-1#bgp#traffic-shaping#rate-limiting

Cloudflare incident on August 21, 2025

21 августа 2025
Инцидент Cloudflare ↔ AWS us-east-1

  • 16:27 UTC — один клиент на AWS us-east-1 резко увеличил объём запросов к кэшу Cloudflare.
  • Проблема — ответный трафик переполнил прямые линии пиринга между Cloudflare и AWS, вызвав высокую задержку, потери пакетов и сбои до origin-серверов.
  • 19:38 UTC — влияние существенно снизилось; остаточные задержки до 20:18 UTC.
  • Масштаб — только трафик между Cloudflare и AWS us-east-1; глобальные сервисы не пострадали. Это не атака и не BGP-хайджек, а перегрузка каналов.

Почему произошло

Cloudflare работает как обратный прокси: если контент не в кэше, запрос идёт к origin-серверу клиента. Внутренняя сеть рассчитана с запасом, но несколько edge-линков к AWS-оборудованию оказались недостаточны для внезапного скачка. AWS, пытаясь снять нагрузку, отозвала часть BGP-префиксов, что лишь перенаправило трафик на ещё более узкие каналы через офф-сайт интерконнект.

Что делаем дальше

  1. Увеличим пропускную способность всех линков к AWS us-east-1.
  2. Внедрим более агрессивное автоматическое шейпирование трафика, чтобы локальные перегрузки не распространялись.
  3. Улучшим алгоритмы балансировки и отказоустойчивости между пиринговыми точками.
  4. Добавим ранние оповещения и автоматические сценарии отключения «проблемных» клиентов при аномальном росте трафика.

Приносим извинения за неудобства и благодарим за терпение.