Cloudflare incident on August 21, 2025
21 августа 2025
Инцидент Cloudflare ↔ AWS us-east-1
- 16:27 UTC — один клиент на AWS us-east-1 резко увеличил объём запросов к кэшу Cloudflare.
- Проблема — ответный трафик переполнил прямые линии пиринга между Cloudflare и AWS, вызвав высокую задержку, потери пакетов и сбои до origin-серверов.
- 19:38 UTC — влияние существенно снизилось; остаточные задержки до 20:18 UTC.
- Масштаб — только трафик между Cloudflare и AWS us-east-1; глобальные сервисы не пострадали. Это не атака и не BGP-хайджек, а перегрузка каналов.
Почему произошло
Cloudflare работает как обратный прокси: если контент не в кэше, запрос идёт к origin-серверу клиента. Внутренняя сеть рассчитана с запасом, но несколько edge-линков к AWS-оборудованию оказались недостаточны для внезапного скачка. AWS, пытаясь снять нагрузку, отозвала часть BGP-префиксов, что лишь перенаправило трафик на ещё более узкие каналы через офф-сайт интерконнект.
Что делаем дальше
- Увеличим пропускную способность всех линков к AWS us-east-1.
- Внедрим более агрессивное автоматическое шейпирование трафика, чтобы локальные перегрузки не распространялись.
- Улучшим алгоритмы балансировки и отказоустойчивости между пиринговыми точками.
- Добавим ранние оповещения и автоматические сценарии отключения «проблемных» клиентов при аномальном росте трафика.
Приносим извинения за неудобства и благодарим за терпение.