Hacker News Digest

Тег: #cost-optimization

Постов: 3

Building the heap: racking 30 petabytes of hard drives for pretraining (si.inc) 🔥 Горячее 💬 Длинная дискуссия

Для предобучения моделей на 90 миллионах часов видео потребовалось 30 ПБ хранилища — в 500 раз больше, чем для текстовых LLM. Вместо $12 млн/год за облачное хранение в AWS команда построила локальный кластер в Сан-Франциско за $426,5 тыс. единовременно и $29,5 тыс./мес. (с учётом амортизации), сократив расходы в 40 раз.

Ключевая идея: для ML-данных избыточная надёжность облаков не нужна — допустима потеря 5% данных без последствий. Использовали б/у жёсткие диски и JBOD-шасси, колокацию в шаговой доступности от офиса для минимизации простоев. Практический вывод: при больших объёмах данных и толерантности к сбоям самостоятельное развёртывание экономически оправдано.

by nee1r • 01 октября 2025 г. в 15:00 • 389 points

ОригиналHN

#aws#storage#machine-learning#hardware#cost-optimization#data-management#colocation#scalability

Комментарии (265)

  • Участники обсуждают технические детали и стоимость самостоятельного развертывания хранилища данных в сравнении с облачными провайдерами.
  • Поднимаются вопросы о надежности, отказоустойчивости и методах борьбы с битымми данными в кастомном решении.
  • Высказывается любопытство по поводу источника огромного объема видео данных (90 млн часов) и способов его передачи для обучения моделей.
  • Отмечается предпринимательский дух и "can-do" подход команды, а также сложности сетевой инфраструктуры.
  • Обсуждаются практические аспекты: опыт использования eBay, затраты на электроэнергию, необходимость тестирования б/у дисков и количество человеко-часов на setup.

Adaptive LLM routing under budget constraints (arxiv.org)

Проблема: выбор наиболее подходящей LLM для каждого запроса при ограниченном бюджете.
Цель: максимизировать качество ответов, не превышая стоимость.

Метод:

  • Роутер обучается на истории запросов и ценах моделей.
  • Использует лёгкую модель-классификатор для быстрого предсказания «ценности» запроса.
  • Динамически распределяет запросы между дорогими (высокое качество) и дешёвыми моделями.
  • Алгоритм адаптируется к изменению бюджета в реальном времени.

Эксперименты:

  • Датасет из 50k вопросов и 5 LLM (от GPT-3.5 до GPT-4).
  • При бюджете −30 % от полной стоимости GPT-4 достигается 95 % её качества.
  • Роутер срабатывает за 2 мс, не влияя на латентность.

Вывод: адаптивный роутинг позволяет экономить до 70 % затрат без значимой потери качества.

by tdchaitanya • 01 сентября 2025 г. в 16:57 • 189 points

ОригиналHN

#llm#gpt-3.5#gpt-4#machine-learning#routing-algorithms#cost-optimization#performance-metrics#arxiv

Комментарии (76)

  • GPT-4 стоит в 100 раз дороже Mixtral ($24,7 против $0,24/млн токенов), и даже при 20 % ошибок маршрутизации экономика всё равно выгодна.
  • Главный спор — как измерять «performance»: технические метрики не всегда совпадают с удовлетворённостью пользователей.
  • Авторы предлагают алгоритм PILOT (LinUCB-роутер с учётом предпочтений), но критики считают, что роутеры нужно тонко настраивать под конкретную нагрузку, иначе в проде работают хуже, чем в тестах.
  • Часть участников считает тему «роутинг для экономии» слишком мелкой и не фронтиром: «AGI не скоро, зато дёшево».

Deploying DeepSeek on 96 H100 GPUs (lmsys.org) 🔥 Горячее

!5085850510050025050an50 is5AD38ananbeant5an50of If3 of10an: The000an3ad50 isancan open openThe description15able to run, but the process is not

flashcard:

Q: What isgmented is: What is to run, but to is:

by GabrielBianconi • 29 августа 2025 г. в 14:07 • 266 points

ОригиналHN

#deepseek#h100#gpu#aws#runpod#cloud-computing#cost-optimization#batch-processing

Комментарии (76)

  • Реальная себестоимость инференса DeepSeek-R1 при 100 % загрузке — ≈ $0,20 за 1 млн выходных токенов на облаке Atlas ($1,80/H100/час).
  • Пиковая нагрузка заставляет бронировать GPU на годы, поэтому фактическая утилизация 10–20 %, а цена выше.
  • Крупные провайдеры берут 10× маржу; на AWS 8×H100 стоит $31,4/час, у бюджетных хостингов (RunPod и др.) уже $2/час.
  • Смягчают пики скидки 50 % на батч-задания и много-региональное распределение.
  • Следующее поколение GB200 NVL72 обещает 2,5–3,4× прироста, но стоит $3–4 млн за кластер.