Building the heap: racking 30 petabytes of hard drives for pretraining

Для предобучения моделей на 90 миллионах часов видео потребовалось 30 ПБ хранилища — в 500 раз больше, чем для текстовых LLM. Вместо $12 млн/год за облачное хранение в AWS команда построила локальный кластер в Сан-Франциско за $426,5 тыс. единовременно и $29,5 тыс./мес. (с учётом амортизации), сократив расходы в 40 раз.

Ключевая идея: для ML-данных избыточная надёжность облаков не нужна — допустима потеря 5% данных без последствий. Использовали б/у жёсткие диски и JBOD-шасси, колокацию в шаговой доступности от офиса для минимизации простоев. Практический вывод: при больших объёмах данных и толерантности к сбоям самостоятельное развёртывание экономически оправдано.

Комментарии (265)

Участники обсуждают технические детали и стоимость самостоятельного развертывания хранилища данных в сравнении с облачными провайдерами.
Поднимаются вопросы о надежности, отказоустойчивости и методах борьбы с битымми данными в кастомном решении.
Высказывается любопытство по поводу источника огромного объема видео данных (90 млн часов) и способов его передачи для обучения моделей.
Отмечается предпринимательский дух и "can-do" подход команды, а также сложности сетевой инфраструктуры.
Обсуждаются практические аспекты: опыт использования eBay, затраты на электроэнергию, необходимость тестирования б/у дисков и количество человеко-часов на setup.