Hacker News Digest

Тег: #positional-encoding

Постов: 2

When models manipulate manifolds: The geometry of a counting task (transformer-circuits.pub)

Исследователи из Anthropic изучают, как трансформерные модели манипулируют геометрическими структурами (многообразиями) при выполнении задачи подсчета. Анализ показывает, что модели создают сложные представления чисел в многомерном пространстве, где операции подсчета соответствуют геометрическим трансформациям этих структур.

Ученые обнаружили, что модели используют комбинацию внимания и позиционных кодировок для построения "геометрических путей" между числовыми состояниями. Эти пути позволяют модели эффективно выполнять операции инкремента и декремента, сохраняя при этом числовую семантику. Исследование демонстрирует, что даже простые арифметические задачи требуют от моделей построения сложных геометрических конструкций в их внутреннем пространстве представлений.

by vinhnx • 29 октября 2025 г. в 05:50 • 84 points

ОригиналHN

#transformer#llm#anthropic#attention#positional-encoding#geometry

Комментарии (10)

  • Обсуждение критикует фокусировку на задаче разбиения строки, поскольку она уже имеет алгоритмическое решение и не отражает реальные задачи LLM.
  • Участники спора подчеркивают, что вместо изучения механизмов, модель тестируется на уже решённой задаче, что делает задачу менее релевантной для понимания внутренней работы LLM.
  • Также поднимается вопрос о том, что статья использует терминологию "биология" в контексте искусственных систем, что может ввести в заблуждение.
  • Некоторые участники считают, что статья не делает ясным, что именно она изучает в контексте внутренней работы LLM, и что именно они хотят выяснить.

The Annotated Transformer (2022) (nlp.seas.harvard.edu)

Суть статьи в двух словах

  • Transformer — архитектура нейросети, где всё держится на механизме внимания; свёртки и рекуррентные слои не нужны.
  • Ключевые компоненты:
    • Multi-Head Attention — параллельные «головы» вычисляют взвешенные суммы входов.
    • Positional Encoding — добавляет информацию о порядке токенов.
    • Feed-Forward — простые линейные слои между блоками внимания.
  • Тренировка:
    • Оптимизатор Adam с тёплым стартом и дропаутом.
    • Label Smoothing (коэффициент 0.1) уменьшает переобучение.
  • Результаты:
    • На WMT 2014 английский↔немецкий BLEU 28.4 (новый SOTA).
    • Обучение на 8 GPU занимает 12 часов до сходимости.
  • Вывод: «Внимание — всё, что нужно»; модель легко масштабируется и обучается параллельно.

by subset • 24 августа 2025 г. в 09:58 • 177 points

ОригиналHN

#transformer#attention-mechanism#multi-head-attention#positional-encoding#adam#label-smoothing#nlp#machine-learning#deep-learning#neural-networks

Комментарии (11)

  • @srush напомнил, что статья была переписана командой авторов, и поделился ссылками на свои материалы по CUDA и тензорам.
  • Участники хвалят качество объяснения attention и детализацию визуализации.
  • @ActorNightly спорит, что термины Key/Query/Value не несут особого смысла, так как матрицы произвольны.
  • @gchadwick возражает, подчёркивая разные роли K, Q, V при декодировании.
  • @roadside_picnic предлагает смотреть на attention как на kernel smoothing, что делает его интуитивнее.