Adaptive LLM routing under budget constraints
Проблема: выбор наиболее подходящей LLM для каждого запроса при ограниченном бюджете.
Цель: максимизировать качество ответов, не превышая стоимость.
Метод:
- Роутер обучается на истории запросов и ценах моделей.
- Использует лёгкую модель-классификатор для быстрого предсказания «ценности» запроса.
- Динамически распределяет запросы между дорогими (высокое качество) и дешёвыми моделями.
- Алгоритм адаптируется к изменению бюджета в реальном времени.
Эксперименты:
- Датасет из 50k вопросов и 5 LLM (от GPT-3.5 до GPT-4).
- При бюджете −30 % от полной стоимости GPT-4 достигается 95 % её качества.
- Роутер срабатывает за 2 мс, не влияя на латентность.
Вывод: адаптивный роутинг позволяет экономить до 70 % затрат без значимой потери качества.
Комментарии (76)
- GPT-4 стоит в 100 раз дороже Mixtral ($24,7 против $0,24/млн токенов), и даже при 20 % ошибок маршрутизации экономика всё равно выгодна.
- Главный спор — как измерять «performance»: технические метрики не всегда совпадают с удовлетворённостью пользователей.
- Авторы предлагают алгоритм PILOT (LinUCB-роутер с учётом предпочтений), но критики считают, что роутеры нужно тонко настраивать под конкретную нагрузку, иначе в проде работают хуже, чем в тестах.
- Часть участников считает тему «роутинг для экономии» слишком мелкой и не фронтиром: «AGI не скоро, зато дёшево».
Deploying DeepSeek on 96 H100 GPUs 🔥 Горячее
!5085850510050025050an50 is5AD38ananbeant5an50of If3 of10an: The000an3ad50 isancan open openThe description15able to run, but the process is not
flashcard:
Q: What isgmented is: What is to run, but to is:
Комментарии (76)
- Реальная себестоимость инференса DeepSeek-R1 при 100 % загрузке — ≈ $0,20 за 1 млн выходных токенов на облаке Atlas ($1,80/H100/час).
- Пиковая нагрузка заставляет бронировать GPU на годы, поэтому фактическая утилизация 10–20 %, а цена выше.
- Крупные провайдеры берут 10× маржу; на AWS 8×H100 стоит $31,4/час, у бюджетных хостингов (RunPod и др.) уже $2/час.
- Смягчают пики скидки 50 % на батч-задания и много-региональное распределение.
- Следующее поколение GB200 NVL72 обещает 2,5–3,4× прироста, но стоит $3–4 млн за кластер.