The Annotated Transformer (2022)
Суть статьи в двух словах
- Transformer — архитектура нейросети, где всё держится на механизме внимания; свёртки и рекуррентные слои не нужны.
- Ключевые компоненты:
- Multi-Head Attention — параллельные «головы» вычисляют взвешенные суммы входов.
- Positional Encoding — добавляет информацию о порядке токенов.
- Feed-Forward — простые линейные слои между блоками внимания.
- Тренировка:
- Оптимизатор Adam с тёплым стартом и дропаутом.
- Label Smoothing (коэффициент 0.1) уменьшает переобучение.
- Результаты:
- На WMT 2014 английский↔немецкий BLEU 28.4 (новый SOTA).
- Обучение на 8 GPU занимает 12 часов до сходимости.
- Вывод: «Внимание — всё, что нужно»; модель легко масштабируется и обучается параллельно.