Hacker News Digest

01 сентября 2025 г. в 16:57 • arxiv.org • ⭐ 189 • 💬 76

OriginalHN

#llm#gpt-3.5#gpt-4#machine-learning#routing-algorithms#cost-optimization#performance-metrics#arxiv

Adaptive LLM routing under budget constraints

Проблема: выбор наиболее подходящей LLM для каждого запроса при ограниченном бюджете.
Цель: максимизировать качество ответов, не превышая стоимость.

Метод:

  • Роутер обучается на истории запросов и ценах моделей.
  • Использует лёгкую модель-классификатор для быстрого предсказания «ценности» запроса.
  • Динамически распределяет запросы между дорогими (высокое качество) и дешёвыми моделями.
  • Алгоритм адаптируется к изменению бюджета в реальном времени.

Эксперименты:

  • Датасет из 50k вопросов и 5 LLM (от GPT-3.5 до GPT-4).
  • При бюджете −30 % от полной стоимости GPT-4 достигается 95 % её качества.
  • Роутер срабатывает за 2 мс, не влияя на латентность.

Вывод: адаптивный роутинг позволяет экономить до 70 % затрат без значимой потери качества.