Hacker News Digest

Тег: #incident-management

Постов: 3

Passwords and Power Drills (google.github.io)

В сентябре 2012 года рассылка нового пароля для WiFi в Google вызвала каскадный сбой системы управления паролями. Система, рассчитанная на несколько администраторов, не выдержала трафика от тысяч сотрудников. Первичная реплика стала неработоспособной, вторичная — последовала её примеру. Инженер не знал, что для перезапуска требуется смарт-карта HSM, хранящаяся в сейфе. Коллеги в Австралии не смогли открыть сейф (комбинация была в недоступной системе), а в Калифорнии извлекли карту, но она вызвала ошибку. Даже вскрытие сейфа дрелью не помогло — проблема оказалась в неправильной установке карты. Инцидент иллюстрирует сложность создания систем, одновременно надёжных и безопасных.

Надёжность и безопасность требуют разных подходов к проектированию. Риски надёжности связаны с немотивированными сбоями (плохие обновления), тогда как угрозы безопасности исходят от противников, стремящихся использовать уязвимости. Системы надёжности часто "сбиваются в безопасное состояние" (электронный замок открывается при отключении питания), что создаёт брешь в безопасности. В то же время избыточность, повышающая надёжность, увеличивает поверхность атак. Управление инцидентами также различается: для надёжности важны мнения разных специалистов, а для безопасности — ограничение круга лиц, способных устранить проблему.

by harporoeder • 21 октября 2025 г. в 08:03 • 89 points

ОригиналHN

#security#reliability#incident-management#hsm#google

Комментарии (20)

  • Инженеры Google в Австралии столкнулись с проблемой, что безопасность важнее, чем удобство, и это привело к тому, что они не смогли открыть сейф, потому что не знали, как правильно вставить карту. В итоге пришлось использовать дрель, что вызвало критику со стороны общественности.

The RubyGems "Security Incident" (andre.arko.net)

Ruby Central сообщила о «событии безопасности» в RubyGems.org, но в действительности оно оказалось конфликтом между организацией и бывшим оператором Андре Арко, который вёл службу более 10 лет. Ruby Central утверждает, что он «не имел доступа» к продакшену, но не предоставляет никаких доказательств. Арко же утверждает, что у него оставался доступ к AWS и логам, и что он не мог бы их использовать без ведома. Он также утверждает, что его удалили из организации без объяснений, и что команда не отвечает на его письма. Он также утверждает, что Ruby Central не отвечает на его письма и не предоставляет никакой информации о «безопасности» RubyGems.

by semiquaver • 10 октября 2025 г. в 03:30 • 115 points

ОригиналHN

#ruby#rubygems#aws#security#incident-management

Комментарии (23)

  • В обсуждении поднимается вопрос о том, как именно было доведено до сведения Арко, что его доступ к продакшену отозван, и какие именно обстоятельства привели к этому решению.
  • Участники обсуждения выражают обеспокоенность тем, что новые мейнтейнеры, возможно, не готовы обеспечить безопасность и надежность сервиса.
  • Также поднимается вопрос о том, что, возможно, вся эта ситуация имеет большее отношение к политике, чем к техническим аспектам.

Stdlib: A library of frameworks, templates, and guides for technical leadership (debuggingleadership.com)

Чёткое делегирование полномочий значительно упрощает управление инцидентами, снижая хаос и ускоряя восстановление. Практические стратегии помогают командам сохранять фокус на поставках даже при внезапных сбоях.

Инженерные процессы часто переоценивают: ключ к успеху — люди и динамика команды, а не строгие методологии. Признание индивидуального вклада и развитие психологической безопасности, где ошибки обсуждаются без драмы, важнее формальных правил.

by mooreds • 03 октября 2025 г. в 02:33 • 94 points

ОригиналHN

#technical-leadership#incident-management#team-dynamics#psychological-safety#content-curation#llm

Комментарии (14)

  • Критика выбора названия 'stdlib' из-за конфликта с общепринятым значением (стандартная библиотека языка программирования)
  • Положительные оценки дизайна и полезности сайта, отмечающие его полированность и обилие ресурсов
  • Вопросы о методах отбора и агрегации контента на сайте (ручная curation vs. автоматизированное сканирование и AI-суммаризация)
  • Пояснение автора проекта, что это часть более крупной разработки, а не самостоятельный продукт
  • Скептические комментарии о мотивах создания сайта и использовании технического сленга