Passwords and Power Drills
В сентябре 2012 года рассылка нового пароля для WiFi в Google вызвала каскадный сбой системы управления паролями. Система, рассчитанная на несколько администраторов, не выдержала трафика от тысяч сотрудников. Первичная реплика стала неработоспособной, вторичная — последовала её примеру. Инженер не знал, что для перезапуска требуется смарт-карта HSM, хранящаяся в сейфе. Коллеги в Австралии не смогли открыть сейф (комбинация была в недоступной системе), а в Калифорнии извлекли карту, но она вызвала ошибку. Даже вскрытие сейфа дрелью не помогло — проблема оказалась в неправильной установке карты. Инцидент иллюстрирует сложность создания систем, одновременно надёжных и безопасных.
Надёжность и безопасность требуют разных подходов к проектированию. Риски надёжности связаны с немотивированными сбоями (плохие обновления), тогда как угрозы безопасности исходят от противников, стремящихся использовать уязвимости. Системы надёжности часто "сбиваются в безопасное состояние" (электронный замок открывается при отключении питания), что создаёт брешь в безопасности. В то же время избыточность, повышающая надёжность, увеличивает поверхность атак. Управление инцидентами также различается: для надёжности важны мнения разных специалистов, а для безопасности — ограничение круга лиц, способных устранить проблему.
Комментарии (20)
- Инженеры Google в Австралии столкнулись с проблемой, что безопасность важнее, чем удобство, и это привело к тому, что они не смогли открыть сейф, потому что не знали, как правильно вставить карту. В итоге пришлось использовать дрель, что вызвало критику со стороны общественности.
The RubyGems "Security Incident"
Ruby Central сообщила о «событии безопасности» в RubyGems.org, но в действительности оно оказалось конфликтом между организацией и бывшим оператором Андре Арко, который вёл службу более 10 лет. Ruby Central утверждает, что он «не имел доступа» к продакшену, но не предоставляет никаких доказательств. Арко же утверждает, что у него оставался доступ к AWS и логам, и что он не мог бы их использовать без ведома. Он также утверждает, что его удалили из организации без объяснений, и что команда не отвечает на его письма. Он также утверждает, что Ruby Central не отвечает на его письма и не предоставляет никакой информации о «безопасности» RubyGems.
Комментарии (23)
- В обсуждении поднимается вопрос о том, как именно было доведено до сведения Арко, что его доступ к продакшену отозван, и какие именно обстоятельства привели к этому решению.
- Участники обсуждения выражают обеспокоенность тем, что новые мейнтейнеры, возможно, не готовы обеспечить безопасность и надежность сервиса.
- Также поднимается вопрос о том, что, возможно, вся эта ситуация имеет большее отношение к политике, чем к техническим аспектам.
Stdlib: A library of frameworks, templates, and guides for technical leadership
Чёткое делегирование полномочий значительно упрощает управление инцидентами, снижая хаос и ускоряя восстановление. Практические стратегии помогают командам сохранять фокус на поставках даже при внезапных сбоях.
Инженерные процессы часто переоценивают: ключ к успеху — люди и динамика команды, а не строгие методологии. Признание индивидуального вклада и развитие психологической безопасности, где ошибки обсуждаются без драмы, важнее формальных правил.
Комментарии (14)
- Критика выбора названия 'stdlib' из-за конфликта с общепринятым значением (стандартная библиотека языка программирования)
- Положительные оценки дизайна и полезности сайта, отмечающие его полированность и обилие ресурсов
- Вопросы о методах отбора и агрегации контента на сайте (ручная curation vs. автоматизированное сканирование и AI-суммаризация)
- Пояснение автора проекта, что это часть более крупной разработки, а не самостоятельный продукт
- Скептические комментарии о мотивах создания сайта и использовании технического сленга