Hacker News Digest

24 августа 2025 г. в 09:58 • nlp.seas.harvard.edu • ⭐ 177 • 💬 11

OriginalHN

#transformer#attention-mechanism#multi-head-attention#positional-encoding#adam#label-smoothing#nlp#machine-learning#deep-learning#neural-networks

The Annotated Transformer (2022)

Суть статьи в двух словах

  • Transformer — архитектура нейросети, где всё держится на механизме внимания; свёртки и рекуррентные слои не нужны.
  • Ключевые компоненты:
    • Multi-Head Attention — параллельные «головы» вычисляют взвешенные суммы входов.
    • Positional Encoding — добавляет информацию о порядке токенов.
    • Feed-Forward — простые линейные слои между блоками внимания.
  • Тренировка:
    • Оптимизатор Adam с тёплым стартом и дропаутом.
    • Label Smoothing (коэффициент 0.1) уменьшает переобучение.
  • Результаты:
    • На WMT 2014 английский↔немецкий BLEU 28.4 (новый SOTA).
    • Обучение на 8 GPU занимает 12 часов до сходимости.
  • Вывод: «Внимание — всё, что нужно»; модель легко масштабируется и обучается параллельно.