Тег: #positional-encoding — Hacker News Digest

When models manipulate manifolds: The geometry of a counting task (transformer-circuits.pub)

Исследователи из Anthropic изучают, как трансформерные модели манипулируют геометрическими структурами (многообразиями) при выполнении задачи подсчета. Анализ показывает, что модели создают сложные представления чисел в многомерном пространстве, где операции подсчета соответствуют геометрическим трансформациям этих структур.

Ученые обнаружили, что модели используют комбинацию внимания и позиционных кодировок для построения "геометрических путей" между числовыми состояниями. Эти пути позволяют модели эффективно выполнять операции инкремента и декремента, сохраняя при этом числовую семантику. Исследование демонстрирует, что даже простые арифметические задачи требуют от моделей построения сложных геометрических конструкций в их внутреннем пространстве представлений.

by vinhnx • 29 октября 2025 г. в 05:50 • 84 points

Оригинал • HN

#transformer #llm #anthropic #attention #positional-encoding #geometry

Комментарии (10)

Обсуждение критикует фокусировку на задаче разбиения строки, поскольку она уже имеет алгоритмическое решение и не отражает реальные задачи LLM.
Участники спора подчеркивают, что вместо изучения механизмов, модель тестируется на уже решённой задаче, что делает задачу менее релевантной для понимания внутренней работы LLM.
Также поднимается вопрос о том, что статья использует терминологию "биология" в контексте искусственных систем, что может ввести в заблуждение.
Некоторые участники считают, что статья не делает ясным, что именно она изучает в контексте внутренней работы LLM, и что именно они хотят выяснить.

The Annotated Transformer (2022) (nlp.seas.harvard.edu)

Суть статьи в двух словах

Transformer — архитектура нейросети, где всё держится на механизме внимания; свёртки и рекуррентные слои не нужны.
Ключевые компоненты:
- Multi-Head Attention — параллельные «головы» вычисляют взвешенные суммы входов.
- Positional Encoding — добавляет информацию о порядке токенов.
- Feed-Forward — простые линейные слои между блоками внимания.
Тренировка:
- Оптимизатор Adam с тёплым стартом и дропаутом.
- Label Smoothing (коэффициент 0.1) уменьшает переобучение.
Результаты:
- На WMT 2014 английский↔немецкий BLEU 28.4 (новый SOTA).
- Обучение на 8 GPU занимает 12 часов до сходимости.
Вывод: «Внимание — всё, что нужно»; модель легко масштабируется и обучается параллельно.

by subset • 24 августа 2025 г. в 09:58 • 177 points

Оригинал • HN

#transformer #attention-mechanism #multi-head-attention #positional-encoding #adam #label-smoothing #nlp #machine-learning #deep-learning #neural-networks

Комментарии (11)

@srush напомнил, что статья была переписана командой авторов, и поделился ссылками на свои материалы по CUDA и тензорам.
Участники хвалят качество объяснения attention и детализацию визуализации.
@ActorNightly спорит, что термины Key/Query/Value не несут особого смысла, так как матрицы произвольны.
@gchadwick возражает, подчёркивая разные роли K, Q, V при декодировании.
@roadside_picnic предлагает смотреть на attention как на kernel smoothing, что делает его интуитивнее.