Тег: #transformer — Hacker News Digest

LLM Visualization (bbycroft.net) 🔥 Горячее

Визуализация Больших Языковых Моделей
Главная

by gmays • 04 сентября 2025 г. в 18:06 • 566 points

Пользователи восторгаются визуализацией работы LLM, называя её «искусством» и полезным учебным ресурсом.
Приводятся ссылки на похожие визуализации (Transformer Explainer, Illustrated Transformer, видео Karpathy).
Обсуждается, что модель выглядит простой (уравнение внимания на салфетке), но остаётся «чёрным ящиком» для понимания принятия решений.
Уточняется: LLM уже запускаются на чипах (ноутбук, телефон), дата-центры нужны для обучения и масштабирования.
Вспоминаются предпосылки бума: рост GPU, алгоритм Transformer, идея извлекать знания из данных вместо ручного кодирования.

Суть статьи в двух словах

Transformer — архитектура нейросети, где всё держится на механизме внимания; свёртки и рекуррентные слои не нужны.
Ключевые компоненты:
- Multi-Head Attention — параллельные «головы» вычисляют взвешенные суммы входов.
- Positional Encoding — добавляет информацию о порядке токенов.
- Feed-Forward — простые линейные слои между блоками внимания.
Тренировка:
- Оптимизатор Adam с тёплым стартом и дропаутом.
- Label Smoothing (коэффициент 0.1) уменьшает переобучение.
Результаты:
- На WMT 2014 английский↔немецкий BLEU 28.4 (новый SOTA).
- Обучение на 8 GPU занимает 12 часов до сходимости.
Вывод: «Внимание — всё, что нужно»; модель легко масштабируется и обучается параллельно.

by subset • 24 августа 2025 г. в 09:58 • 177 points

@srush напомнил, что статья была переписана командой авторов, и поделился ссылками на свои материалы по CUDA и тензорам.
Участники хвалят качество объяснения attention и детализацию визуализации.
@ActorNightly спорит, что термины Key/Query/Value не несут особого смысла, так как матрицы произвольны.
@gchadwick возражает, подчёркивая разные роли K, Q, V при декодировании.
@roadside_picnic предлагает смотреть на attention как на kernel smoothing, что делает его интуитивнее.