How to inject knowledge efficiently? Knowledge infusion scaling law for LLMs
Большие языковые модели часто демонстрируют недостаточную производительность в узкоспециализированных областях и склонны к галлюцинациям из-за отсутствия целевой оптимизации. Стратегическое внедрение доменных знаний на этапе предобучения может значительно улучшить результаты, однако возникает проблема баланса: слишком мало данных приводит к недостаточной специализации, а избыток вызывает катастрофическое забывание ранее усвоенной информации.
Исследование выявило два ключевых наблюдения: каждая модель имеет пороговое значение, после которого её способность сохранять знания резко ухудшается, и эти точки коллапса масштабируются согласованно с размером модели. На основе этого предложен закон масштабирования инфузии знаний, который позволяет предсказать оптимальный объём доменных данных для больших моделей, анализируя их меньшие аналоги. Эксперименты подтвердили эффективность и универсальность подхода для различных размеров моделей и бюджетов токенов.