Making LLMs Cheaper and Better via Performance-Efficiency Optimized Routing
Идея: вместо одного огромного LLM использовать роутер, который для каждого запроса выбирает наиболее подходящую по размеру и качеству модель из набора.
Проблема: GPT-4/5 дороги и не всегда нужны; мелкие модели дешевле, но хуже.
Решение: обучить роутер-LLM прогнозировать, какая модель справится с задачей с минимальными затратами и заданным порогом качества.
Методика:
- Собрали 30 задач NLP (перевод, суммаризация, код и т.д.).
- Для каждой задачи подготовили набор моделей разных размеров (от 1.3 B до 70 B параметров).
- Обучили роутер на 100k примеров, где вход — запрос, выход — выбор модели + оценка качества.
- Использовали Pareto-оптимизацию: минимизировать стоимость при фиксированном качестве.
Результаты:
- При том же качестве, что у GPT-4, роутер сокращает стоимость в 4–6 раз.
- На 50 % запросов достаточно модели 7 B вместо 70 B.
- Роутер добавляет <1 мс задержки (незаметно).
Вывод: дешевле и быстрее держать «зоопарк» моделей + роутер, чем один сверхбольшой LLM.