Hacker News Digest

29 сентября 2025 г. в 17:52 • thinkingmachines.ai • ⭐ 172 • 💬 48

OriginalHN

#lora#machine-learning#deep-learning#reinforcement-learning#attention

LoRA Without Regret

LoRA позволяет эффективно дообучать большие языковые модели, обновляя лишь малую часть параметров через низкоранговые матрицы, что экономит вычислительные ресурсы и память. Эксперименты показывают, что на небольших и средних наборах данных для обучения с учителем и reinforcement learning LoRA достигает той же производительности, что и полное дообучение, при условии корректной настройки.

Ключевые факторы успеха LoRA включают применение ко всем слоям модели (включая MLP и MoE), а не только к attention-слоям, и осторожный подбор размера батча — слишком большие батчи могут ухудшить результаты. Однако при превышении ёмкости адаптера данными или в сценариях, напоминающих предобучение, LoRA проигрывает полному дообучению.