When models manipulate manifolds: The geometry of a counting task
Исследователи из Anthropic изучают, как трансформерные модели манипулируют геометрическими структурами (многообразиями) при выполнении задачи подсчета. Анализ показывает, что модели создают сложные представления чисел в многомерном пространстве, где операции подсчета соответствуют геометрическим трансформациям этих структур.
Ученые обнаружили, что модели используют комбинацию внимания и позиционных кодировок для построения "геометрических путей" между числовыми состояниями. Эти пути позволяют модели эффективно выполнять операции инкремента и декремента, сохраняя при этом числовую семантику. Исследование демонстрирует, что даже простые арифметические задачи требуют от моделей построения сложных геометрических конструкций в их внутреннем пространстве представлений.
Комментарии (10)
- Обсуждение критикует фокусировку на задаче разбиения строки, поскольку она уже имеет алгоритмическое решение и не отражает реальные задачи LLM.
- Участники спора подчеркивают, что вместо изучения механизмов, модель тестируется на уже решённой задаче, что делает задачу менее релевантной для понимания внутренней работы LLM.
- Также поднимается вопрос о том, что статья использует терминологию "биология" в контексте искусственных систем, что может ввести в заблуждение.
- Некоторые участники считают, что статья не делает ясным, что именно она изучает в контексте внутренней работы LLM, и что именно они хотят выяснить.
LoRA Without Regret
LoRA позволяет эффективно дообучать большие языковые модели, обновляя лишь малую часть параметров через низкоранговые матрицы, что экономит вычислительные ресурсы и память. Эксперименты показывают, что на небольших и средних наборах данных для обучения с учителем и reinforcement learning LoRA достигает той же производительности, что и полное дообучение, при условии корректной настройки.
Ключевые факторы успеха LoRA включают применение ко всем слоям модели (включая MLP и MoE), а не только к attention-слоям, и осторожный подбор размера батча — слишком большие батчи могут ухудшить результаты. Однако при превышении ёмкости адаптера данными или в сценариях, напоминающих предобучение, LoRA проигрывает полному дообучению.
Комментарии (48)
- Многие пользователи изначально путают аббревиатуру LoRA (Low-Rank Adaptation) с технологией беспроводной связи LoRa (Long Range).
- Обсуждается научная статья, ставящая под сомнение эквивалентность эффективности LoRA и полного тонкого обучения (Full Fine-Tuning), и ведется спор о доказательности этого утверждения.
- Поднимается вопрос о практических руководствах по применению LoRA и рекомендациях по оценке необходимого количества параметров для модели.
- Упоминается метод прогрессивного слияния матриц LoRA (progressive merging) как потенциально более эффективный, но не рассмотренный в обсуждаемом материале.
- Затрагивается тема применения LoRA в обучении с подкреплением (RL) и сложности оценки количества информации в данных.