Root cause analysis? You're doing it wrong
Традиционный анализ первопричин часто проводится неправильно, используя упрощённые модели мира, которые приводят к недостаточному пониманию сложных систем. Автор критикует подход, ищущий единственную "корневую причину", утверждая, что аварии возникают, когда система в опасном состоянии встречает неблагоприятные условия. Безопасность следует рассматривать как динамическую проблему контроля, а не просто предотвращение сбоев. Книга "CAST Handbook" предлагается как более глубокий подход к анализу аварий, где человеческая ошибка становится отправной точкой для расследования, а не его конечным результатом.
Глубокий анализ меньшего числа инцидентов ценнее поверхностного рассмотрения множества аварий. Любая авария пытается дать множество уроков, и игнорирование этого — упущенная возможность. Действия по контролю могут быть техническими (автоматический failover), социальными (организационная культура) или промежуточными (тестирование на проникновение). Системы должны помогать операторам формировать точные ментальные модели, ведь решения, принятые в прошлом, были гораздо сложнее, чем это кажется ретроспективно.