Hacker News Digest

Тег: #attention

Постов: 2

When models manipulate manifolds: The geometry of a counting task (transformer-circuits.pub)

Исследователи из Anthropic изучают, как трансформерные модели манипулируют геометрическими структурами (многообразиями) при выполнении задачи подсчета. Анализ показывает, что модели создают сложные представления чисел в многомерном пространстве, где операции подсчета соответствуют геометрическим трансформациям этих структур.

Ученые обнаружили, что модели используют комбинацию внимания и позиционных кодировок для построения "геометрических путей" между числовыми состояниями. Эти пути позволяют модели эффективно выполнять операции инкремента и декремента, сохраняя при этом числовую семантику. Исследование демонстрирует, что даже простые арифметические задачи требуют от моделей построения сложных геометрических конструкций в их внутреннем пространстве представлений.

by vinhnx • 29 октября 2025 г. в 05:50 • 84 points

ОригиналHN

#transformer#llm#anthropic#attention#positional-encoding#geometry

Комментарии (10)

  • Обсуждение критикует фокусировку на задаче разбиения строки, поскольку она уже имеет алгоритмическое решение и не отражает реальные задачи LLM.
  • Участники спора подчеркивают, что вместо изучения механизмов, модель тестируется на уже решённой задаче, что делает задачу менее релевантной для понимания внутренней работы LLM.
  • Также поднимается вопрос о том, что статья использует терминологию "биология" в контексте искусственных систем, что может ввести в заблуждение.
  • Некоторые участники считают, что статья не делает ясным, что именно она изучает в контексте внутренней работы LLM, и что именно они хотят выяснить.

LoRA Without Regret (thinkingmachines.ai)

LoRA позволяет эффективно дообучать большие языковые модели, обновляя лишь малую часть параметров через низкоранговые матрицы, что экономит вычислительные ресурсы и память. Эксперименты показывают, что на небольших и средних наборах данных для обучения с учителем и reinforcement learning LoRA достигает той же производительности, что и полное дообучение, при условии корректной настройки.

Ключевые факторы успеха LoRA включают применение ко всем слоям модели (включая MLP и MoE), а не только к attention-слоям, и осторожный подбор размера батча — слишком большие батчи могут ухудшить результаты. Однако при превышении ёмкости адаптера данными или в сценариях, напоминающих предобучение, LoRA проигрывает полному дообучению.

by grantpitt • 29 сентября 2025 г. в 17:52 • 172 points

ОригиналHN

#lora#machine-learning#deep-learning#reinforcement-learning#attention

Комментарии (48)

  • Многие пользователи изначально путают аббревиатуру LoRA (Low-Rank Adaptation) с технологией беспроводной связи LoRa (Long Range).
  • Обсуждается научная статья, ставящая под сомнение эквивалентность эффективности LoRA и полного тонкого обучения (Full Fine-Tuning), и ведется спор о доказательности этого утверждения.
  • Поднимается вопрос о практических руководствах по применению LoRA и рекомендациях по оценке необходимого количества параметров для модели.
  • Упоминается метод прогрессивного слияния матриц LoRA (progressive merging) как потенциально более эффективный, но не рассмотренный в обсуждаемом материале.
  • Затрагивается тема применения LoRA в обучении с подкреплением (RL) и сложности оценки количества информации в данных.