Building the heap: racking 30 petabytes of hard drives for pretraining
Для предобучения моделей на 90 миллионах часов видео потребовалось 30 ПБ хранилища — в 500 раз больше, чем для текстовых LLM. Вместо $12 млн/год за облачное хранение в AWS команда построила локальный кластер в Сан-Франциско за $426,5 тыс. единовременно и $29,5 тыс./мес. (с учётом амортизации), сократив расходы в 40 раз.
Ключевая идея: для ML-данных избыточная надёжность облаков не нужна — допустима потеря 5% данных без последствий. Использовали б/у жёсткие диски и JBOD-шасси, колокацию в шаговой доступности от офиса для минимизации простоев. Практический вывод: при больших объёмах данных и толерантности к сбоям самостоятельное развёртывание экономически оправдано.