Hacker News Digest

Тег: #diffusion

Постов: 3

BERT is just a single text diffusion step (nathan.rs) 🔥 Горячее

Недавно автор обнаружил, что дискретная языковая диффузия — это просто обобщение masked language modeling (MLM), которое используется в BERT с 2018 года. Gemini Diffusion от Google DeepMind генерирует текст, постепенно уточняя случайный шум, в отличие от традиционных GPT-стиль моделей, создающих текст слово за словом. Автор задался вопросом, можно ли дообучить BERT-подобную модель для генерации текста, и провел эксперимент для проверки этой концепции.

Архитектура Transformer изначально была encoder-decoder моделью, но в 2018 году разделилась на две ветви: encoder-only (BERT-style, двунаправленные) и decoder-only (GPT-style, авторегрессивные). Диффузионные модели для текста применяют принципы, аналогичные обработке изображений, но вместо добавления шума используют маскирование токенов. На прямом процессе постепенно увеличивается количество замаскированных токенов, а на обратном — модель учится восстанавливать исходный текст, предсказывая токены на различных этапах маскирования.

by nathan-barry • 20 октября 2025 г. в 14:31 • 432 points

ОригиналHN

#bert#mlm#diffusion#transformer#gemini-diffusion#llm#nlp#arxiv

Комментарии (102)

  • В 2021 году в статье arXiv:2107.03006 впервые отметили, что маскирование и диффузия текста фактически реализуют один и тот же процесс, и с тех пор моделирующие стороны ведут дискуссию о том, какой из них «настоящий» диффузионный процесс.
  • Сторонники диффузии текста утверждают, что она более биологически правдоподобна, потому что человек, формулируя мысль, одновременно формулирует и слова, в то время как автопрегрессивные модели оперируют токенами последовательно, что якобы не соответствует тому, как работает мозг.
  • Сторонники же автопрегрессивных моделей отвечают, что в действительности и люди, и модели делают одно и то же, и что внутреннее представление мысли не является дискретным, и потому нет никакой разницы между последовательным и диффузионным подходами.
  • Сторонники диффузии текста также утверждают, что если мы хотим, чтобы модель могла бы редактировать или дополнять текст, то она должна уметь удалять и вставлять токены, что невозможно в рамках автопрегрессивного подхода.
  • Сторонники автопрегрессивных моделей отвечают, что в действительности диффузионные модели не могут обучаться стабильно без помощи автопрегрессивного механизма, и что в конце концов, оба подхода требуют одни и те же вычислительные и временные затраты, и что поэтому вопрос остается открытым, какой подход лучше подходит для генерации текста.

VibeVoice: A Frontier Open-Source Text-to-Speech Model (microsoft.github.io) 🔥 Горячее

VibeVoice — открытая TTS-модель для создания экспрессивных многоспикерных диалогов (подкасты, интервью).

  • Токенизаторы акустический и семантический работают на рекордно низкой частоте 7,5 Гц, сохраняя качество и ускоряя длинные последовательности.
  • Архитектура: LLM понимает контекст и диалог, диффузионный «голова» добавляет детали.
  • Пределы: до 90 минут, до 4 голосов, поддержка фоновой музыки, спонтанных эмоций и пения.
  • Кросс-язычность: свободный перевод с/на китайский и английский.

by lastdong • 03 сентября 2025 г. в 10:44 • 406 points

ОригиналHN

#text-to-speech#open-source#llm#diffusion#python#mit

Комментарии (150)

  • Качество VibeVoice высокое, но мужские голоса часто звучат роботизированно и попадают в «зловещую долину».
  • Женские образцы заметно реалистичнее; демо-сайт почти всегда начинает с них.
  • Лучшие альтернативы: HiggsAudio (быстрее и чище), Kokoro (для слабых GPU) и Chatterbox.
  • Модель хорошо клонирует голос и эмоции, поддерживает английский, китайский и индийские акценты, но не SSML и редкие языки.
  • Репозиторий временно закрыт, лицензия MIT, но данных обучения не раскрыто.

Hacking Diffusion into Qwen3 for the Arc Challenge (matthewnewton.com)

Краткий обзор
Повторяя подход победителей ARC-2024, я заметил: чем меньше модель уверена в пикселе, тем выше шанс ошибки. Авторегрессия заставляет «писать» решение слева-направо, как печатать на машинке без возврата.

Я переделал Qwen3-8B в диффузионный режим: сначала заполняем «лёгкие» токены, потом сложные. На 10 шагах модель быстрее и точнее по пикселям, но решает не больше задач. На 30 шагах точность совпадает с базовой, а время выше — из-за отсутствия кеширования.

Как работает генерация

  1. Кодируем вход как обычный LLM.
  2. Случайно маскируем 80 % выходных токенов.
  3. На каждом шаге модель предсказывает маскированные токены; выбираем наиболее вероятные и «размаскиваем».
  4. Повторяем, пока не останется масков.

Почему +1 % к пикселям ≠ +1 % к задачам
ARC требует абсолютного совпадения всей сетки. Даже 1 ошибка = 0 баллов. Диффузия чаще «почти» правильна, но «почти» не считается.

Технические детали

  • Архитектура: обычный декодер → полносвязный «энкодер» без кэша.
  • Обучение: 1 эпоха, lr 5e-5, batch 64, маскирование 80 %, аугментации поворот/отражение.
  • Данные: 400 задач ARC + 800 синтетических, длина фиксирована 4096 токенов.

Результаты на eval-2025

Метод Время Точн. токенов Решено задач
Авторегрессия 94 % 21 %
Диффузия 10 шагов 0.6× 95 % 19 %
Диффузия 30 шагов 1.3× 94 % 21 %

Следующие шаги

  • Вернуть кеш входных токенов, ограничив пересчёт скрытых состояний.
  • Увеличить шаги до 50–100 при сохранении скорости.
  • Попробовать «гибрид»: диффузия для грубой раскладки, авторегрессия для деталей.

by mattnewton • 05 августа 2025 г. в 14:43 • 115 points

ОригиналHN

#qwen3#arc#llm#diffusion#autoregressive#machine-learning#tokens#backspace#retraction#in-context-learning

Комментарии (15)

  • @radarsat1 предложил добавить в генерацию LLM «токен backspace» для отмены уже выданных токенов, но @imtringued и @_diyar отметили, что при обычной однонаправленной архитектуре это сводится к возврату к прежнему состоянию и не решает проблему.
  • @dev_hugepages указал на исследование (2306.05426), где такой механизм уже реализован в рамках IL-обучения.
  • @mNovak отметил, что диффузионная модель решает головоломки итеративно, но «раскрывает» слишком мало токенов за ход, тратя лишние раунды.
  • @namibj подчеркнул необходимость механизма «retraction», чтобы избежать застревания на ошибочных решениях.
  • @twotwotwo заметил парадокс: люди чаще редактируют код, а LLM генерируют его целиком, что делает правку затратной.