BERT is just a single text diffusion step 🔥 Горячее
Недавно автор обнаружил, что дискретная языковая диффузия — это просто обобщение masked language modeling (MLM), которое используется в BERT с 2018 года. Gemini Diffusion от Google DeepMind генерирует текст, постепенно уточняя случайный шум, в отличие от традиционных GPT-стиль моделей, создающих текст слово за словом. Автор задался вопросом, можно ли дообучить BERT-подобную модель для генерации текста, и провел эксперимент для проверки этой концепции.
Архитектура Transformer изначально была encoder-decoder моделью, но в 2018 году разделилась на две ветви: encoder-only (BERT-style, двунаправленные) и decoder-only (GPT-style, авторегрессивные). Диффузионные модели для текста применяют принципы, аналогичные обработке изображений, но вместо добавления шума используют маскирование токенов. На прямом процессе постепенно увеличивается количество замаскированных токенов, а на обратном — модель учится восстанавливать исходный текст, предсказывая токены на различных этапах маскирования.
Комментарии (102)
- В 2021 году в статье arXiv:2107.03006 впервые отметили, что маскирование и диффузия текста фактически реализуют один и тот же процесс, и с тех пор моделирующие стороны ведут дискуссию о том, какой из них «настоящий» диффузионный процесс.
- Сторонники диффузии текста утверждают, что она более биологически правдоподобна, потому что человек, формулируя мысль, одновременно формулирует и слова, в то время как автопрегрессивные модели оперируют токенами последовательно, что якобы не соответствует тому, как работает мозг.
- Сторонники же автопрегрессивных моделей отвечают, что в действительности и люди, и модели делают одно и то же, и что внутреннее представление мысли не является дискретным, и потому нет никакой разницы между последовательным и диффузионным подходами.
- Сторонники диффузии текста также утверждают, что если мы хотим, чтобы модель могла бы редактировать или дополнять текст, то она должна уметь удалять и вставлять токены, что невозможно в рамках автопрегрессивного подхода.
- Сторонники автопрегрессивных моделей отвечают, что в действительности диффузионные модели не могут обучаться стабильно без помощи автопрегрессивного механизма, и что в конце концов, оба подхода требуют одни и те же вычислительные и временные затраты, и что поэтому вопрос остается открытым, какой подход лучше подходит для генерации текста.
A History of Large Language Models
TL;DR
Статья представляет собой глубокий анализ эволюции идей, лежащих в основе современных LLM. От распределённых представлений и трансформеров до предобучения и масштабируемости. Автор прослеживает путь от идей 1980-х годов до современных моделей, подчеркивая, что прогресс был не линейным, а скорее серией прыжков, сделанных возможными благодаря вычислительной мощности и объёму данных. Он также подчеркивает, что многие ключевые идеи были предвосхищены десятилетиями раньше, но не были реализованы до недавнего времени из-за ограничений в вычислениях. В конце он размышляет о том, что следующий прыжок может быть связан с генеративностью и способностью моделей к обобщению, и что мы можем быть на пороге следующего качественного скачка.
Основные идеи и факты:
- Распределённые представления и трансформер как центральные идеи, которые были предвосхищены в 1980-х годах, но не могли быть реализованы до недавнего времени из-за ограничений в вычислениях.
- Предобучение и масштабируемость как ключевые факторы, которые позволили LLM достичь их современного уровня.
- Attention is all you need - это не только архитектура, но и философия, которая подчеркивает важность масштабируемости и эффективного использования вычислительных ресурсов.
- Масштабируемость и предобучение как два кита, на которых стоит современный успех LLM.
Комментарии (17)
- Обсуждение подчеркнуло, что ранние LLM-архитектуры (GPT-1, GPT-2) часто упускаются из виду, хотя именно они положили начало современному направлению.
- Участники отметили, что статья недооценивает значение BERT как промежуточного этапа, несмотря на его влияние на многочисленные бенчмарки и задачи.
- Сообщество отметило, что LLM не столько «решили» задачи, сколько стали вычислять вероятности последовательностей, и это вызвало скепсис в отношении заявлений о приближении к AGI.
- Была затронута тема, что вместо специализированных моделей классификации или регрессии, которые раньше использовали предобученные репрезентации, теперь используют LLM как универсальный инструмент, и это вызывает вопросы о том, как именно LLM влияют на поле AI-исследований.
Beyond sensor data: Foundation models of behavioral data from wearables
Ключевая идея:
Используем не сырые показания сенсоров, а «поведенческие» признаки (шаги, сон, ЧСС, калории и т. д.), извлечённые из носимых устройств. На их основе обучаем фундаментальную модель (FM) с архитектурой BERT-подобного трансформера.
Данные:
- 1,2 млн человек, 1,3 млрд дней наблюдений (Fitbit).
- 7 категорий признаков: активность, сон, ЧСС, калории, BMI, возраст, пол.
- Представление временных рядов: токенизируем каждый день (max 512 токенов), добавляем «класс» токен для задачи предсказания.
Обучение:
- 110M-параметровый трансформер, MLM + задача предсказывать следующий день.
- 16 GPU, 3 дня.
Результаты:
- На 15 задачах здоровья FM превосходит CNN/RNN/LSTM/GBDT на 6–18 % AUROC.
- Особенно сильно улучшение при малых выборках (до +25 %).
- Zero-shot перенос на NIH All of Us (≈ 12 тыс. человек) без дообучения сохраняет 90 % качества.
Абляции:
- Удаление любой группы признаков падает AUROC на 1–3 %.
- Уменьшение модели до 35 M параметров теряет 2–4 %, но всё ещё лучше бейзлайнов.
Применение:
- Личные «цифровые двойники» для раннего выявления диабета, гипертонии, депрессии.
- Данные и веса модели будут открыты.
Комментарии (48)
- Apple-2025: новая «фундаментальная» модель переходит от сырых сенсорных данных к поведенческим биомаркерам (HRV, ЧСС покоя и др.) и показывает высокую точность для ряда заболеваний.
- Участники удивлены: в ~10 задачах модель проигрывает простому демографическому базлайну, а где выигрывает — лишь «чуть-чуть».
- Нет открытых весов и данных из-за соглашений с участниками Apple Heart and Movement Study; доступен лишь экспорт личных XML-файлов.
- Для самостоятельного анализа годятся HealthKit/Swift или сторонние бета-инструменты.
- Обсуждаются риски приватности и интерес страховых компаний к таким данным.
How attention sinks keep language models stable
Почему модели ломаются на длинных диалогах
При удалении старых токенов для экономии памяти модель начинает выдавать бессмыслицу. Причина — «attention sinks»: первые токены собирают избыточное внимание, потому что softmax требует, чтобы веса суммировались в 1.
StreamingLLM
Оставляем первые 4 токена навсегда, остальное сдвигаем окном. Работает до 4 млн токенов; уже в HuggingFace, TensorRT-LLM и новых OpenAI-моделях.
OpenAI и attention sinks
В GPT-OSS-20B/120B добавлен обучаемый скаляр в softmax каждой головы, позволяющий «не обращать внимания» — прямое наследие StreamingLLM.
История открытия
Летом 2023 в Meta я решал задачу: как продолжать диалог длиннее обучающего окна. Казалось, что достаточно скользящего окна, но при удалении первых токенов перплексия взлетала до небес.
Визуализация
Внимание Llama-2 постоянно «сливается» в начало. Эти токены-«стоки» не передают внимание дальше, а лишь поглощают его, поэтому их нельзя выбрасывать.
Математика
Softmax обязывает каждую голову распределить ровно 1.0 внимания. Если нет полезного контекста, весь «бюджет» уходит в первые позиции, где чуть выше базовые скоры.
Комментарии (31)
- Участники обсуждают «attention sinks» — токены-«стоки», на которые модель направляет избыточное внимание, чтобы не «размывать» полезную информацию.
- Это поведение замечено и в BERT ([SEP], точки), и в ViT (фоновые патчи), и в GPT-OSS, где вместо добавления единицы к знаменателю обучают отдельный логит на каждую голову.
- Синк-токены работают как «pressure valve», предотвращая over-mixing и давая модели «нулевой» вектор для случаев «не найдено».
- Пользователи замечают, что первые слова («Hello», «Please») или CLS-подобные глобальные токены могут непреднамеренно служить такими стоками.
- FOSS-реализации уже поддерживают приём: llama.cpp принял PR, а Diff-Transformer и другие идеи быстро переиспользуются.