Тег: #multi-head-attention — Hacker News Digest

From multi-head to latent attention: The evolution of attention mechanisms (vinithavn.medium.com)

Внимание в авто-регрессивных моделях позволяет фокусироваться на релевантных токенах контекста. Например, в «The animal didn’t cross the street because it was too tired» механизм связывает «it» с «animal», а не «street».

Как работает внимание

Query (Q) – вектор текущего токена.
Key (K) – векторы контекста для сравнения.
Value (V) – фактические данные контекста.
Attention scores – веса важности, полученные из Q и K.
KV-кэш – повторное использование уже вычисленных K и V для ускорения декодирования.

Multi-Head Attention (MHA)

Идея: h параллельных «голов» учат разные аспекты зависимостей.
Плюсы: высокая точность.
Минусы: O(h·d²) параметров и вычислений; рост KV-кэша.

Multi-Query Attention (MQA)

Идея: одна K и V на все головы.
Плюсы: в 8–16× меньше KV-памяти, быстрее.
Минусы: качество падает.

Grouped Query Attention (GQA)

Компромисс: g групп K/V (1 ≤ g ≤ h).
Плюсы: баланс между MHA и MQA.
Минусы: всё ещё линейный рост памяти при больших g.

Multi-Latent Attention (MLA)

Идея: сжимаем K и V в небольшой латентный вектор c (dim ≪ d), из которого потом «разворачиваем» нужные K, V.
Плюсы:

KV-память не зависит от h и d;
качество как у MHA;
применяется в DeepSeek-V2.
Минусы: дополнительные матрицы проекции, но выгода при больших моделях перевешивает.

Сводная таблица

Механизм	Параметры KV	Память KV	Качество	Примечание
MHA	h·d·d	O(hd)	высокое	baseline
MQA	d·d	O(d)	↓	быстрый
GQA	g·d·d	O(gd)	≈ MHA	компромисс
MLA	d_lat·d	O(d_lat)	≈ MHA	state-of-art

Вывод
Эволюция от MHA к MLA – путь к снижению памяти и вычислений без потери качества. MLA через латентные представления достигает эффективности MQA и точности MHA, задавая новый стандарт для больших языковых моделей.

by mgninad • 30 августа 2025 г. в 05:45 • 166 points

Оригинал • HN

#attention-mechanisms #multi-head-attention #multi-query-attention #grouped-query-attention #multi-latent-attention #machine-learning #deep-learning #transformers #natural-language-processing #medium

Комментарии (38)

Название «Attention Is All You Need» выглядело лёгким и цепляющим, но авторы не предвидели гипер-масштабного влияния; целью было лишь улучшить машинный перевод без рекуррентных блоков.
Некоторые считают, что броское имя помогло вирусному распространению работы, а в DL-сообществе меметические названия вообще норма (YOLO, ViT и др.).
Участники спорят, используют ли «фронтирные» модели описанные в статье приёмы: открытые варианты вроде Grok-2 всё ещё опираются на стандартные MHA + MoE, а основной прогресс идёт за счёт методов обучения, а не архитектуры.
Для чтения платных статей без регистрации советуют freedium.cfd, отключение JS или закрытие баннера-крестиком.

The Annotated Transformer (2022) (nlp.seas.harvard.edu)

Суть статьи в двух словах

Transformer — архитектура нейросети, где всё держится на механизме внимания; свёртки и рекуррентные слои не нужны.
Ключевые компоненты:
- Multi-Head Attention — параллельные «головы» вычисляют взвешенные суммы входов.
- Positional Encoding — добавляет информацию о порядке токенов.
- Feed-Forward — простые линейные слои между блоками внимания.
Тренировка:
- Оптимизатор Adam с тёплым стартом и дропаутом.
- Label Smoothing (коэффициент 0.1) уменьшает переобучение.
Результаты:
- На WMT 2014 английский↔немецкий BLEU 28.4 (новый SOTA).
- Обучение на 8 GPU занимает 12 часов до сходимости.
Вывод: «Внимание — всё, что нужно»; модель легко масштабируется и обучается параллельно.

by subset • 24 августа 2025 г. в 09:58 • 177 points

Оригинал • HN

#transformer #attention-mechanism #multi-head-attention #positional-encoding #adam #label-smoothing #nlp #machine-learning #deep-learning #neural-networks

Комментарии (11)

@srush напомнил, что статья была переписана командой авторов, и поделился ссылками на свои материалы по CUDA и тензорам.
Участники хвалят качество объяснения attention и детализацию визуализации.
@ActorNightly спорит, что термины Key/Query/Value не несут особого смысла, так как матрицы произвольны.
@gchadwick возражает, подчёркивая разные роли K, Q, V при декодировании.
@roadside_picnic предлагает смотреть на attention как на kernel smoothing, что делает его интуитивнее.