Hacker News Digest

Тег: #cost-optimization

Постов: 2

Adaptive LLM routing under budget constraints (arxiv.org)

Проблема: выбор наиболее подходящей LLM для каждого запроса при ограниченном бюджете.
Цель: максимизировать качество ответов, не превышая стоимость.

Метод:

  • Роутер обучается на истории запросов и ценах моделей.
  • Использует лёгкую модель-классификатор для быстрого предсказания «ценности» запроса.
  • Динамически распределяет запросы между дорогими (высокое качество) и дешёвыми моделями.
  • Алгоритм адаптируется к изменению бюджета в реальном времени.

Эксперименты:

  • Датасет из 50k вопросов и 5 LLM (от GPT-3.5 до GPT-4).
  • При бюджете −30 % от полной стоимости GPT-4 достигается 95 % её качества.
  • Роутер срабатывает за 2 мс, не влияя на латентность.

Вывод: адаптивный роутинг позволяет экономить до 70 % затрат без значимой потери качества.

by tdchaitanya • 01 сентября 2025 г. в 16:57 • 189 points

ОригиналHN

#llm#gpt-3.5#gpt-4#machine-learning#routing-algorithms#cost-optimization#performance-metrics#arxiv

Комментарии (76)

  • GPT-4 стоит в 100 раз дороже Mixtral ($24,7 против $0,24/млн токенов), и даже при 20 % ошибок маршрутизации экономика всё равно выгодна.
  • Главный спор — как измерять «performance»: технические метрики не всегда совпадают с удовлетворённостью пользователей.
  • Авторы предлагают алгоритм PILOT (LinUCB-роутер с учётом предпочтений), но критики считают, что роутеры нужно тонко настраивать под конкретную нагрузку, иначе в проде работают хуже, чем в тестах.
  • Часть участников считает тему «роутинг для экономии» слишком мелкой и не фронтиром: «AGI не скоро, зато дёшево».

Deploying DeepSeek on 96 H100 GPUs (lmsys.org) 🔥 Горячее

!5085850510050025050an50 is5AD38ananbeant5an50of If3 of10an: The000an3ad50 isancan open openThe description15able to run, but the process is not

flashcard:

Q: What isgmented is: What is to run, but to is:

by GabrielBianconi • 29 августа 2025 г. в 14:07 • 266 points

ОригиналHN

#deepseek#h100#gpu#aws#runpod#cloud-computing#cost-optimization#batch-processing

Комментарии (76)

  • Реальная себестоимость инференса DeepSeek-R1 при 100 % загрузке — ≈ $0,20 за 1 млн выходных токенов на облаке Atlas ($1,80/H100/час).
  • Пиковая нагрузка заставляет бронировать GPU на годы, поэтому фактическая утилизация 10–20 %, а цена выше.
  • Крупные провайдеры берут 10× маржу; на AWS 8×H100 стоит $31,4/час, у бюджетных хостингов (RunPod и др.) уже $2/час.
  • Смягчают пики скидки 50 % на батч-задания и много-региональное распределение.
  • Следующее поколение GB200 NVL72 обещает 2,5–3,4× прироста, но стоит $3–4 млн за кластер.