Hacker News Digest

15 сентября 2025 г. в 20:51 • jenson.org • ⭐ 271 • 💬 60

OriginalHN

#large-language-models#open-source#small-language-models#microsoft#llm#machine-learning

Boring is good

Скучное — это хорошо

Первоначальный ажиотаж вокруг больших языковых моделей (LLM) начинает спадать, и на то есть веские причины. Пора сменить неконтролируемую шумиху на более прагматичный, даже «скучный» подход. Недавний отчет MIT показывает, что 95% компаний, внедряющих эту технологию, еще не увидели положительных результатов. Неудивительно, что многие чувствуют растерянность.

В этой статье я хочу ответить на вопрос: почему нам все еще стоит интересоваться этой технологией? Два урока из моего опыта помогают ориентироваться в неопределенности: 1. технологии развиваются по нисходящей, 2. мы обычно начинаем с неправильного пути.

Урок 1: Технологии развиваются по нисходящей

В своей работе 1989 года «Динамо и компьютер» Пол Дэвид описывает, как по мере созревания технологии меняется ее влияние. Он приводит пример динамо — мощного электродвигателя, который освободил фабрики от привязки к рекам для использования водной энергии. Сначала фабрики использовали одно большое динамо, но по мере удешевления и уменьшения размеров двигателей их стало возможным размещать в multiple locations, что привело к созданию сборочных линий и росту производительности.

Тот же паттерн — от крупного и централизованного к малому и распределенному — происходит сейчас с LLM. Уменьшением размеров моделей занимается сообщество open-source, создающее множество SLM (Small Language Models). Например, Microsoft’s Phi3 эффективно работает на моем 8-летнем ПК, используя менее 10% процессора.

Конечно, эти smaller модели обычно показывают более низкие результаты в тестах, чем крупные модели OpenAI и Google, но это не значит, что они хуже. Мы просто задаем им не те вопросы. Нам не нужно, чтобы модели сдавали экзамены на юриста.

Компании экспериментируют с использованием SLM для небольших, даже незаметных задач, например, для переформулирования запросов в поиске. Пользователь даже не знает, что задействована LLM — он просто получает лучшие результаты. Такие скромные применения переворачивают ситуацию с крупными централизованными моделями в пользу SLM, которые проще в этическом обучении и дешевле в эксплуатации.

По мере удешевления создания кастомных LLM такие сценарии станут распространенными и полезными. Технология будет использоваться в более скромных, сфокусированных и, боюсь, значительно более скучных ways.