Hacker News Digest

22 августа 2025 г. в 14:43 • arxiv.org • ⭐ 100 • 💬 21

OriginalHN

#llm#nlp#machine-learning#routing#optimization#performance#cost-efficiency#arxiv

Making LLMs Cheaper and Better via Performance-Efficiency Optimized Routing

Идея: вместо одного огромного LLM использовать роутер, который для каждого запроса выбирает наиболее подходящую по размеру и качеству модель из набора.
Проблема: GPT-4/5 дороги и не всегда нужны; мелкие модели дешевле, но хуже.
Решение: обучить роутер-LLM прогнозировать, какая модель справится с задачей с минимальными затратами и заданным порогом качества.

Методика:

  • Собрали 30 задач NLP (перевод, суммаризация, код и т.д.).
  • Для каждой задачи подготовили набор моделей разных размеров (от 1.3 B до 70 B параметров).
  • Обучили роутер на 100k примеров, где вход — запрос, выход — выбор модели + оценка качества.
  • Использовали Pareto-оптимизацию: минимизировать стоимость при фиксированном качестве.

Результаты:

  • При том же качестве, что у GPT-4, роутер сокращает стоимость в 4–6 раз.
  • На 50 % запросов достаточно модели 7 B вместо 70 B.
  • Роутер добавляет <1 мс задержки (незаметно).

Вывод: дешевле и быстрее держать «зоопарк» моделей + роутер, чем один сверхбольшой LLM.