AWS multiple services outage in us-east-1 🔥 Горячее 💬 Длинная дискуссия
—
Комментарии (2002)
- AWS-инцидент 20 октября затронул DynamoDB, IAM, CloudWatch и ряд других сервисов, что вызвало каскадный сбой в десятках зависящих сервисов, включая Netflix, Robinhood, Reddit и другие.
- Пользователи отметили, что даже крупные компании, которые, казалось бы, должны были бы быть готовы к таким ситуациям, оказались неготовыми.
- Некоторые отметили, что AWS не предоставляет достаточной информации о статусе сервисов и что это не первый случай, когда такие сбои происходят.
- Некоторые отметили, что AWS не предоставляет достаточной информации о статусе сервисов и что это не первый случай, когда такие сбои происходят.
Major AWS Outage Happening 🔥 Горячее 💬 Длинная дискуссия
—
Комментарии (542)
- AWS-инцидент затронул DynamoDB в регионе us-east-1, что каскадом вывел из строя десятки зависимых сервисов — от Amazon-магазина до Zoom и Coinbase.
- Пользователи вспомнили, что AWS-облако не единственный провайдер, и обсуждают, как минимизировать риски, включая мульти-регион и мульти-клауд.
- Некоторые комментаторы подчеркивают, что большинство сервисов, которые «упали» в этот день, на самом деле зависят от AWS, и что это не первый раз, когда такое случается.
Cloudflare incident on August 21, 2025
21 августа 2025
Инцидент Cloudflare ↔ AWS us-east-1
- 16:27 UTC — один клиент на AWS us-east-1 резко увеличил объём запросов к кэшу Cloudflare.
- Проблема — ответный трафик переполнил прямые линии пиринга между Cloudflare и AWS, вызвав высокую задержку, потери пакетов и сбои до origin-серверов.
- 19:38 UTC — влияние существенно снизилось; остаточные задержки до 20:18 UTC.
- Масштаб — только трафик между Cloudflare и AWS us-east-1; глобальные сервисы не пострадали. Это не атака и не BGP-хайджек, а перегрузка каналов.
Почему произошло
Cloudflare работает как обратный прокси: если контент не в кэше, запрос идёт к origin-серверу клиента. Внутренняя сеть рассчитана с запасом, но несколько edge-линков к AWS-оборудованию оказались недостаточны для внезапного скачка. AWS, пытаясь снять нагрузку, отозвала часть BGP-префиксов, что лишь перенаправило трафик на ещё более узкие каналы через офф-сайт интерконнект.
Что делаем дальше
- Увеличим пропускную способность всех линков к AWS us-east-1.
- Внедрим более агрессивное автоматическое шейпирование трафика, чтобы локальные перегрузки не распространялись.
- Улучшим алгоритмы балансировки и отказоустойчивости между пиринговыми точками.
- Добавим ранние оповещения и автоматические сценарии отключения «проблемных» клиентов при аномальном росте трафика.
Приносим извинения за неудобства и благодарим за терпение.
Комментарии (38)
- Один клиент Cloudflare сгенерировал всплеск трафика, перегрузив каналы к AWS us-east-1 и вызвав отказ.
- Проблема усугубилась тем, что AWS автоматически отозвал BGP-маршруты, а резервные линии оказались недостаточными.
- Участники обсуждают необходимость пер-клиентских лимитов, rate-limiting на краю сети и улучшенной наблюдаемости.
- Некоторые считают, что единственное долгосрочное решение — уход из us-east-1 из-за хронических проблем масштабирования.
- Возникли шутки и догадки о том, кто именно был «тем самым клиентом».