Hacker News Digest

Тег: #transformer

Постов: 5

When models manipulate manifolds: The geometry of a counting task (transformer-circuits.pub)

Исследователи из Anthropic изучают, как трансформерные модели манипулируют геометрическими структурами (многообразиями) при выполнении задачи подсчета. Анализ показывает, что модели создают сложные представления чисел в многомерном пространстве, где операции подсчета соответствуют геометрическим трансформациям этих структур.

Ученые обнаружили, что модели используют комбинацию внимания и позиционных кодировок для построения "геометрических путей" между числовыми состояниями. Эти пути позволяют модели эффективно выполнять операции инкремента и декремента, сохраняя при этом числовую семантику. Исследование демонстрирует, что даже простые арифметические задачи требуют от моделей построения сложных геометрических конструкций в их внутреннем пространстве представлений.

by vinhnx • 29 октября 2025 г. в 05:50 • 84 points

ОригиналHN

#transformer#llm#anthropic#attention#positional-encoding#geometry

Комментарии (10)

  • Обсуждение критикует фокусировку на задаче разбиения строки, поскольку она уже имеет алгоритмическое решение и не отражает реальные задачи LLM.
  • Участники спора подчеркивают, что вместо изучения механизмов, модель тестируется на уже решённой задаче, что делает задачу менее релевантной для понимания внутренней работы LLM.
  • Также поднимается вопрос о том, что статья использует терминологию "биология" в контексте искусственных систем, что может ввести в заблуждение.
  • Некоторые участники считают, что статья не делает ясным, что именно она изучает в контексте внутренней работы LLM, и что именно они хотят выяснить.

ChunkLLM: A Lightweight Pluggable Framework for Accelerating LLMs Inference (arxiv.org)

Представлен ChunkLLM - легковесный подключаемый фреймворк для ускорения инференса больших языковых моделей. Основная проблема - квадратичная сложность механизма self-attention в Transformer, что приводит к вычислительным неэффективностям. Авторы предлагают двухкомпонентную систему: QK Adapter (для сжатия признаков и получения чанк-внимания) и Chunk Adapter (для обнаружения границ чанков с использованием семантической информации). Во время обучения основная модель остается замороженной, тренируются только адаптеры.

Эксперименты показали, что ChunkLLM сохраняет 98.64% производительности на бенчмарках с длинным контекстом, при этом достигая ускорения до 4.48x при обработке текстов длиной 120K токенов по сравнению с базовым Transformer. Ключевое преимущество - выбор чанков происходит только при обнаружении границы, что значительно ускоряет инференс. Фреймворк демонстрирует сопоставимые результаты на коротких текстах и сохраняет 48.58% ключевого кэша.

by PaulHoule • 24 октября 2025 г. в 11:41 • 84 points

ОригиналHN

#transformer#self-attention#llm#inference#attention-mechanism#machine-learning#natural-language-processing#arxiv

Комментарии (6)

  • Контекст 30k+ токенов становится нормой, но при этом требуется 4× ускорение без значимой потери качества.
  • Модульная, «железо-ориентированная» архитектура становится трендом: LLM-фреймворки стремятся к эффективности и низким вычислительным затратам.
  • Стоит ли жертвовать 2% качества ради 4× ускорения? Да, если речь идет о длинном контексте.
  • Развитие идет в сторону мелких, легковесных решений, которые можно встроить в реальные приложения.

BERT is just a single text diffusion step (nathan.rs) 🔥 Горячее

Недавно автор обнаружил, что дискретная языковая диффузия — это просто обобщение masked language modeling (MLM), которое используется в BERT с 2018 года. Gemini Diffusion от Google DeepMind генерирует текст, постепенно уточняя случайный шум, в отличие от традиционных GPT-стиль моделей, создающих текст слово за словом. Автор задался вопросом, можно ли дообучить BERT-подобную модель для генерации текста, и провел эксперимент для проверки этой концепции.

Архитектура Transformer изначально была encoder-decoder моделью, но в 2018 году разделилась на две ветви: encoder-only (BERT-style, двунаправленные) и decoder-only (GPT-style, авторегрессивные). Диффузионные модели для текста применяют принципы, аналогичные обработке изображений, но вместо добавления шума используют маскирование токенов. На прямом процессе постепенно увеличивается количество замаскированных токенов, а на обратном — модель учится восстанавливать исходный текст, предсказывая токены на различных этапах маскирования.

by nathan-barry • 20 октября 2025 г. в 14:31 • 432 points

ОригиналHN

#bert#mlm#diffusion#transformer#gemini-diffusion#llm#nlp#arxiv

Комментарии (102)

  • В 2021 году в статье arXiv:2107.03006 впервые отметили, что маскирование и диффузия текста фактически реализуют один и тот же процесс, и с тех пор моделирующие стороны ведут дискуссию о том, какой из них «настоящий» диффузионный процесс.
  • Сторонники диффузии текста утверждают, что она более биологически правдоподобна, потому что человек, формулируя мысль, одновременно формулирует и слова, в то время как автопрегрессивные модели оперируют токенами последовательно, что якобы не соответствует тому, как работает мозг.
  • Сторонники же автопрегрессивных моделей отвечают, что в действительности и люди, и модели делают одно и то же, и что внутреннее представление мысли не является дискретным, и потому нет никакой разницы между последовательным и диффузионным подходами.
  • Сторонники диффузии текста также утверждают, что если мы хотим, чтобы модель могла бы редактировать или дополнять текст, то она должна уметь удалять и вставлять токены, что невозможно в рамках автопрегрессивного подхода.
  • Сторонники автопрегрессивных моделей отвечают, что в действительности диффузионные модели не могут обучаться стабильно без помощи автопрегрессивного механизма, и что в конце концов, оба подхода требуют одни и те же вычислительные и временные затраты, и что поэтому вопрос остается открытым, какой подход лучше подходит для генерации текста.

LLM Visualization (bbycroft.net) 🔥 Горячее

Визуализация Больших Языковых Моделей
Главная

by gmays • 04 сентября 2025 г. в 18:06 • 566 points

ОригиналHN

#transformer#llm#gpu#machine-learning#attention-mechanism#natural-language-processing

Комментарии (38)

  • Пользователи восторгаются визуализацией работы LLM, называя её «искусством» и полезным учебным ресурсом.
  • Приводятся ссылки на похожие визуализации (Transformer Explainer, Illustrated Transformer, видео Karpathy).
  • Обсуждается, что модель выглядит простой (уравнение внимания на салфетке), но остаётся «чёрным ящиком» для понимания принятия решений.
  • Уточняется: LLM уже запускаются на чипах (ноутбук, телефон), дата-центры нужны для обучения и масштабирования.
  • Вспоминаются предпосылки бума: рост GPU, алгоритм Transformer, идея извлекать знания из данных вместо ручного кодирования.

The Annotated Transformer (2022) (nlp.seas.harvard.edu)

Суть статьи в двух словах

  • Transformer — архитектура нейросети, где всё держится на механизме внимания; свёртки и рекуррентные слои не нужны.
  • Ключевые компоненты:
    • Multi-Head Attention — параллельные «головы» вычисляют взвешенные суммы входов.
    • Positional Encoding — добавляет информацию о порядке токенов.
    • Feed-Forward — простые линейные слои между блоками внимания.
  • Тренировка:
    • Оптимизатор Adam с тёплым стартом и дропаутом.
    • Label Smoothing (коэффициент 0.1) уменьшает переобучение.
  • Результаты:
    • На WMT 2014 английский↔немецкий BLEU 28.4 (новый SOTA).
    • Обучение на 8 GPU занимает 12 часов до сходимости.
  • Вывод: «Внимание — всё, что нужно»; модель легко масштабируется и обучается параллельно.

by subset • 24 августа 2025 г. в 09:58 • 177 points

ОригиналHN

#transformer#attention-mechanism#multi-head-attention#positional-encoding#adam#label-smoothing#nlp#machine-learning#deep-learning#neural-networks

Комментарии (11)

  • @srush напомнил, что статья была переписана командой авторов, и поделился ссылками на свои материалы по CUDA и тензорам.
  • Участники хвалят качество объяснения attention и детализацию визуализации.
  • @ActorNightly спорит, что термины Key/Query/Value не несут особого смысла, так как матрицы произвольны.
  • @gchadwick возражает, подчёркивая разные роли K, Q, V при декодировании.
  • @roadside_picnic предлагает смотреть на attention как на kernel smoothing, что делает его интуитивнее.