Тег: #cost-optimization — Hacker News Digest

Adaptive LLM routing under budget constraints (arxiv.org)

Проблема: выбор наиболее подходящей LLM для каждого запроса при ограниченном бюджете.
Цель: максимизировать качество ответов, не превышая стоимость.

Метод:

Роутер обучается на истории запросов и ценах моделей.
Использует лёгкую модель-классификатор для быстрого предсказания «ценности» запроса.
Динамически распределяет запросы между дорогими (высокое качество) и дешёвыми моделями.
Алгоритм адаптируется к изменению бюджета в реальном времени.

Эксперименты:

Датасет из 50k вопросов и 5 LLM (от GPT-3.5 до GPT-4).
При бюджете −30 % от полной стоимости GPT-4 достигается 95 % её качества.
Роутер срабатывает за 2 мс, не влияя на латентность.

Вывод: адаптивный роутинг позволяет экономить до 70 % затрат без значимой потери качества.

by tdchaitanya • 01 сентября 2025 г. в 16:57 • 189 points

Оригинал • HN

#llm #gpt-3.5 #gpt-4 #machine-learning #routing-algorithms #cost-optimization #performance-metrics #arxiv

Комментарии (76)

GPT-4 стоит в 100 раз дороже Mixtral ($24,7 против $0,24/млн токенов), и даже при 20 % ошибок маршрутизации экономика всё равно выгодна.
Главный спор — как измерять «performance»: технические метрики не всегда совпадают с удовлетворённостью пользователей.
Авторы предлагают алгоритм PILOT (LinUCB-роутер с учётом предпочтений), но критики считают, что роутеры нужно тонко настраивать под конкретную нагрузку, иначе в проде работают хуже, чем в тестах.
Часть участников считает тему «роутинг для экономии» слишком мелкой и не фронтиром: «AGI не скоро, зато дёшево».

Deploying DeepSeek on 96 H100 GPUs (lmsys.org) 🔥 Горячее

!5085850510050025050an50 is5AD38ananbeant5an50of If3 of10an: The000an3ad50 isancan open openThe description15able to run, but the process is not

flashcard:

Q: What isgmented is: What is to run, but to is:

by GabrielBianconi • 29 августа 2025 г. в 14:07 • 266 points

Оригинал • HN

#deepseek #h100 #gpu #aws #runpod #cloud-computing #cost-optimization #batch-processing

Комментарии (76)

Реальная себестоимость инференса DeepSeek-R1 при 100 % загрузке — ≈ $0,20 за 1 млн выходных токенов на облаке Atlas ($1,80/H100/час).
Пиковая нагрузка заставляет бронировать GPU на годы, поэтому фактическая утилизация 10–20 %, а цена выше.
Крупные провайдеры берут 10× маржу; на AWS 8×H100 стоит $31,4/час, у бюджетных хостингов (RunPod и др.) уже $2/час.
Смягчают пики скидки 50 % на батч-задания и много-региональное распределение.
Следующее поколение GB200 NVL72 обещает 2,5–3,4× прироста, но стоит $3–4 млн за кластер.