How to inject knowledge efficiently? Knowledge infusion scaling law for LLMs

Большие языковые модели часто демонстрируют недостаточную производительность в узкоспециализированных областях и склонны к галлюцинациям из-за отсутствия целевой оптимизации. Стратегическое внедрение доменных знаний на этапе предобучения может значительно улучшить результаты, однако возникает проблема баланса: слишком мало данных приводит к недостаточной специализации, а избыток вызывает катастрофическое забывание ранее усвоенной информации.

Исследование выявило два ключевых наблюдения: каждая модель имеет пороговое значение, после которого её способность сохранять знания резко ухудшается, и эти точки коллапса масштабируются согласованно с размером модели. На основе этого предложен закон масштабирования инфузии знаний, который позволяет предсказать оптимальный объём доменных данных для больших моделей, анализируя их меньшие аналоги. Эксперименты подтвердили эффективность и универсальность подхода для различных размеров моделей и бюджетов токенов.

Комментарии (31)

Критика метода инъекции знаний через шаблонные триплеты Wikidata, а не естественный язык, что может приводить к коллапсу производительности модели.
Вопросы о зависимости эффекта коллапса памяти от размера модели, домена данных и стоимости дообучения для создания узкоспециализированных моделей.
Обсуждение важности формы подачи знаний (вариативные формулировки vs. фиксированные шаблоны) для их усвоения, а не механического запоминания.
Спор о природе LLM: являются ли они построителями моделей мира или всего лишь продвинутыми предсказателями следующего токена.
Сомнения в эффективности дообучения (fine-tuning) для добавления новых знаний в сравнении с обучением с нуля.