Cloudflare outage should not have happened
Cloudflare outage произошёл из-за запроса к ClickHouse без фильтра по базе данных: SELECT name, type FROM system.columns WHERE table = ‘http_requests_features’ order by name;. После гранта прав доступа на r0-схему запрос вернул дубликаты колонок, удвоив строки в ответе. Это сломало логику генерации файла для Bot Management, вызвав crash loop во всех core-системах. Баг не поймали при rollout, так как код не ожидал таких данных — классический mismatch между приложением и БД.
Cloudflare в RCA предлагает hardening config-файлов как user input, глобальные kill switches, защиту от core dumps и review failure modes. Автор считает это бесполезным: меры уже были, но сбой случился из-за логической, а не физической уязвимости (переход на ClickHouse для скорости игнорирует consistency). Решение — analytical design: no nullable fields, full normalization, formally verified code. FAANG-компаниям стоит внедрять для critical систем, чтобы такие сбои исключить по конструкции.