Building the heap: racking 30 petabytes of hard drives for pretraining 🔥 Горячее 💬 Длинная дискуссия
Для предобучения моделей на 90 миллионах часов видео потребовалось 30 ПБ хранилища — в 500 раз больше, чем для текстовых LLM. Вместо $12 млн/год за облачное хранение в AWS команда построила локальный кластер в Сан-Франциско за $426,5 тыс. единовременно и $29,5 тыс./мес. (с учётом амортизации), сократив расходы в 40 раз.
Ключевая идея: для ML-данных избыточная надёжность облаков не нужна — допустима потеря 5% данных без последствий. Использовали б/у жёсткие диски и JBOD-шасси, колокацию в шаговой доступности от офиса для минимизации простоев. Практический вывод: при больших объёмах данных и толерантности к сбоям самостоятельное развёртывание экономически оправдано.
Комментарии (265)
- Участники обсуждают технические детали и стоимость самостоятельного развертывания хранилища данных в сравнении с облачными провайдерами.
- Поднимаются вопросы о надежности, отказоустойчивости и методах борьбы с битымми данными в кастомном решении.
- Высказывается любопытство по поводу источника огромного объема видео данных (90 млн часов) и способов его передачи для обучения моделей.
- Отмечается предпринимательский дух и "can-do" подход команды, а также сложности сетевой инфраструктуры.
- Обсуждаются практические аспекты: опыт использования eBay, затраты на электроэнергию, необходимость тестирования б/у дисков и количество человеко-часов на setup.
Adaptive LLM routing under budget constraints
Проблема: выбор наиболее подходящей LLM для каждого запроса при ограниченном бюджете.
Цель: максимизировать качество ответов, не превышая стоимость.
Метод:
- Роутер обучается на истории запросов и ценах моделей.
- Использует лёгкую модель-классификатор для быстрого предсказания «ценности» запроса.
- Динамически распределяет запросы между дорогими (высокое качество) и дешёвыми моделями.
- Алгоритм адаптируется к изменению бюджета в реальном времени.
Эксперименты:
- Датасет из 50k вопросов и 5 LLM (от GPT-3.5 до GPT-4).
- При бюджете −30 % от полной стоимости GPT-4 достигается 95 % её качества.
- Роутер срабатывает за 2 мс, не влияя на латентность.
Вывод: адаптивный роутинг позволяет экономить до 70 % затрат без значимой потери качества.
Комментарии (76)
- GPT-4 стоит в 100 раз дороже Mixtral ($24,7 против $0,24/млн токенов), и даже при 20 % ошибок маршрутизации экономика всё равно выгодна.
- Главный спор — как измерять «performance»: технические метрики не всегда совпадают с удовлетворённостью пользователей.
- Авторы предлагают алгоритм PILOT (LinUCB-роутер с учётом предпочтений), но критики считают, что роутеры нужно тонко настраивать под конкретную нагрузку, иначе в проде работают хуже, чем в тестах.
- Часть участников считает тему «роутинг для экономии» слишком мелкой и не фронтиром: «AGI не скоро, зато дёшево».
Deploying DeepSeek on 96 H100 GPUs 🔥 Горячее
!5085850510050025050an50 is5AD38ananbeant5an50of If3 of10an: The000an3ad50 isancan open openThe description15able to run, but the process is not
flashcard:
Q: What isgmented is: What is to run, but to is:
Комментарии (76)
- Реальная себестоимость инференса DeepSeek-R1 при 100 % загрузке — ≈ $0,20 за 1 млн выходных токенов на облаке Atlas ($1,80/H100/час).
- Пиковая нагрузка заставляет бронировать GPU на годы, поэтому фактическая утилизация 10–20 %, а цена выше.
- Крупные провайдеры берут 10× маржу; на AWS 8×H100 стоит $31,4/час, у бюджетных хостингов (RunPod и др.) уже $2/час.
- Смягчают пики скидки 50 % на батч-задания и много-региональное распределение.
- Следующее поколение GB200 NVL72 обещает 2,5–3,4× прироста, но стоит $3–4 млн за кластер.