Adaptive LLM routing under budget constraints
Проблема: выбор наиболее подходящей LLM для каждого запроса при ограниченном бюджете.
Цель: максимизировать качество ответов, не превышая стоимость.
Метод:
- Роутер обучается на истории запросов и ценах моделей.
- Использует лёгкую модель-классификатор для быстрого предсказания «ценности» запроса.
- Динамически распределяет запросы между дорогими (высокое качество) и дешёвыми моделями.
- Алгоритм адаптируется к изменению бюджета в реальном времени.
Эксперименты:
- Датасет из 50k вопросов и 5 LLM (от GPT-3.5 до GPT-4).
- При бюджете −30 % от полной стоимости GPT-4 достигается 95 % её качества.
- Роутер срабатывает за 2 мс, не влияя на латентность.
Вывод: адаптивный роутинг позволяет экономить до 70 % затрат без значимой потери качества.