BERT is just a single text diffusion step
Недавно автор обнаружил, что дискретная языковая диффузия — это просто обобщение masked language modeling (MLM), которое используется в BERT с 2018 года. Gemini Diffusion от Google DeepMind генерирует текст, постепенно уточняя случайный шум, в отличие от традиционных GPT-стиль моделей, создающих текст слово за словом. Автор задался вопросом, можно ли дообучить BERT-подобную модель для генерации текста, и провел эксперимент для проверки этой концепции.
Архитектура Transformer изначально была encoder-decoder моделью, но в 2018 году разделилась на две ветви: encoder-only (BERT-style, двунаправленные) и decoder-only (GPT-style, авторегрессивные). Диффузионные модели для текста применяют принципы, аналогичные обработке изображений, но вместо добавления шума используют маскирование токенов. На прямом процессе постепенно увеличивается количество замаскированных токенов, а на обратном — модель учится восстанавливать исходный текст, предсказывая токены на различных этапах маскирования.