Making LLMs Cheaper and Better via Performance-Efficiency Optimized Routing

Идея: вместо одного огромного LLM использовать роутер, который для каждого запроса выбирает наиболее подходящую по размеру и качеству модель из набора.
Проблема: GPT-4/5 дороги и не всегда нужны; мелкие модели дешевле, но хуже.
Решение: обучить роутер-LLM прогнозировать, какая модель справится с задачей с минимальными затратами и заданным порогом качества.

Методика:

Собрали 30 задач NLP (перевод, суммаризация, код и т.д.).
Для каждой задачи подготовили набор моделей разных размеров (от 1.3 B до 70 B параметров).
Обучили роутер на 100k примеров, где вход — запрос, выход — выбор модели + оценка качества.
Использовали Pareto-оптимизацию: минимизировать стоимость при фиксированном качестве.

Результаты:

При том же качестве, что у GPT-4, роутер сокращает стоимость в 4–6 раз.
На 50 % запросов достаточно модели 7 B вместо 70 B.
Роутер добавляет <1 мс задержки (незаметно).

Вывод: дешевле и быстрее держать «зоопарк» моделей + роутер, чем один сверхбольшой LLM.

Комментарии (21)

Обсуждают «роутинг» запросов между разными LLM вместо одной большой модели: берут 70 % примеров, смотрят, какая модель лучше справляется с каждым кластером, и на оставшиеся 30 % уже маршрутизируют.
Идея пока простая (эмбеддинг + выбор лучшей по истории), но сообщество считает её неизбежным следующим шагом после CoT и способом дешевле масштабироваться.
Критика: не учитывают латентность роутера, могут промахнуться со «сложными» запросами, выглядящими простыми; GPT-5 редко включает reasoning-модель.
Некоторые сравнивают с NotDiamond и другими стартапами, а также с «облачной» эволюцией: сначала дорого, потом дешевеет.
Видение будущего — AGI как ансамбль специализированных модулей, которые можно миксовать под задачу пользователя.