Hacker News Digest

Тег: #us-east-1

Постов: 3

AWS multiple services outage in us-east-1 (health.aws.amazon.com) 🔥 Горячее 💬 Длинная дискуссия

by kondro • 20 октября 2025 г. в 07:22 • 2213 points

ОригиналHN

#aws#dynamodb#iam#cloudwatch#netflix#robinhood#reddit#us-east-1

Комментарии (2002)

  • AWS-инцидент 20 октября затронул DynamoDB, IAM, CloudWatch и ряд других сервисов, что вызвало каскадный сбой в десятках зависящих сервисов, включая Netflix, Robinhood, Reddit и другие.
  • Пользователи отметили, что даже крупные компании, которые, казалось бы, должны были бы быть готовы к таким ситуациям, оказались неготовыми.
  • Некоторые отметили, что AWS не предоставляет достаточной информации о статусе сервисов и что это не первый случай, когда такие сбои происходят.
  • Некоторые отметили, что AWS не предоставляет достаточной информации о статусе сервисов и что это не первый случай, когда такие сбои происходят.

Major AWS Outage Happening (old.reddit.com) 🔥 Горячее 💬 Длинная дискуссия

by vvoyer • 20 октября 2025 г. в 07:11 • 1046 points

ОригиналHN

#aws#dynamodb#us-east-1#cloud#multiregion#multicloud#reddit

Комментарии (542)

  • AWS-инцидент затронул DynamoDB в регионе us-east-1, что каскадом вывел из строя десятки зависимых сервисов — от Amazon-магазина до Zoom и Coinbase.
  • Пользователи вспомнили, что AWS-облако не единственный провайдер, и обсуждают, как минимизировать риски, включая мульти-регион и мульти-клауд.
  • Некоторые комментаторы подчеркивают, что большинство сервисов, которые «упали» в этот день, на самом деле зависят от AWS, и что это не первый раз, когда такое случается.

Cloudflare incident on August 21, 2025 (blog.cloudflare.com)

21 августа 2025
Инцидент Cloudflare ↔ AWS us-east-1

  • 16:27 UTC — один клиент на AWS us-east-1 резко увеличил объём запросов к кэшу Cloudflare.
  • Проблема — ответный трафик переполнил прямые линии пиринга между Cloudflare и AWS, вызвав высокую задержку, потери пакетов и сбои до origin-серверов.
  • 19:38 UTC — влияние существенно снизилось; остаточные задержки до 20:18 UTC.
  • Масштаб — только трафик между Cloudflare и AWS us-east-1; глобальные сервисы не пострадали. Это не атака и не BGP-хайджек, а перегрузка каналов.

Почему произошло

Cloudflare работает как обратный прокси: если контент не в кэше, запрос идёт к origin-серверу клиента. Внутренняя сеть рассчитана с запасом, но несколько edge-линков к AWS-оборудованию оказались недостаточны для внезапного скачка. AWS, пытаясь снять нагрузку, отозвала часть BGP-префиксов, что лишь перенаправило трафик на ещё более узкие каналы через офф-сайт интерконнект.

Что делаем дальше

  1. Увеличим пропускную способность всех линков к AWS us-east-1.
  2. Внедрим более агрессивное автоматическое шейпирование трафика, чтобы локальные перегрузки не распространялись.
  3. Улучшим алгоритмы балансировки и отказоустойчивости между пиринговыми точками.
  4. Добавим ранние оповещения и автоматические сценарии отключения «проблемных» клиентов при аномальном росте трафика.

Приносим извинения за неудобства и благодарим за терпение.

by achalshah • 22 августа 2025 г. в 04:14 • 189 points

ОригиналHN

#cloudflare#aws#bgp#us-east-1

Комментарии (38)

  • Один клиент Cloudflare сгенерировал всплеск трафика, перегрузив каналы к AWS us-east-1 и вызвав отказ.
  • Проблема усугубилась тем, что AWS автоматически отозвал BGP-маршруты, а резервные линии оказались недостаточными.
  • Участники обсуждают необходимость пер-клиентских лимитов, rate-limiting на краю сети и улучшенной наблюдаемости.
  • Некоторые считают, что единственное долгосрочное решение — уход из us-east-1 из-за хронических проблем масштабирования.
  • Возникли шутки и догадки о том, кто именно был «тем самым клиентом».