GPT-OSS vs. Qwen3 and a detailed look how things evolved since GPT-2 🔥 Горячее
- gpt-oss-20b/120b — первые с 2019 г. открытые веса от OpenAI; запускаются на одной GPU благодаря MXFP4 (4-битные веса + 8-битные активации).
- Архитектура классическая: RoPE, RMSNorm, SwiGLU, без MoE. Отличия от GPT-2: больше слоёв и голов, но уже контекст (8k → 32k).
- Глубина vs ширина: gpt-oss-120b — 120 слоёв, d_model 6144; Qwen3-235B-A22B — 80 слоёв, d_model 9216. Увеличение глубины дешевле при прочих равных.
- Attention sink — первые 4 токена не вытесняются из KV-кэша, что стабилизирует длинные контексты.
- Сравнение (MMLU, GSM8K, HumanEval): gpt-oss-120b ≈ Qwen3-30B-A3B, уступает Qwen3-235B-A22B и GPT-4o, но обгоняет Llama-3-70B.
- GPT-5 (анонс) будет гибридным (dense + MoE), 1–2 трлн параметров, обучен на gpt-oss как teacher.
Комментарии (95)
- GPT-OSS не предлагает революционной архитектуры, а аккуратно комбинирует известные оптимизации (RoPE, SwiGLU, GQA, MoE) и MXFP4-квант.
- На практике Qwen3 (особенно coder-варианты 30–32 B) чаще хвалят: быстрее, точнее следует инструкциям, лучше справляется с кодом.
- GPT-OSS-120 B показывает высокие мат-оценки, но «проваливается» в логических бенчмарках и агентных задачах, а 20 B-версия может зацикливаться.
- Большинство считает, что ключевое различие — не архитектура, а данные и пайплайн обучения.
- Локальные 4–5-битные кванты Qwen3 укладываются в 12–20 GB VRAM и уже «заменяют» онлайн-модели для многих разработчиков.
GPT-5: "How many times does the letter b appear in blueberry?" 🔥 Горячее 💬 Длинная дискуссия
—
Комментарии (234)
- GPT-5 без «режима рассуждений» ошибочно считает количество букв «b» в слове blueberry (выдаёт 2 вместо 3).
- Пользователи связывают ошибку с особенностями токенизации и тем, что модель «не видит» отдельные символы.
- При явном включении «режима рассуждений» или в других моделях (Claude, Qwen3, GPT-4o) ответ получается верным.
- Обсуждение подчёркивает: быстрый «дешёвый» вывод может быть неточным, а автоматический роутер пока плохо распознаёт задачи, требующие точного перебора символов.
Hacking Diffusion into Qwen3 for the Arc Challenge
Краткий обзор
Повторяя подход победителей ARC-2024, я заметил: чем меньше модель уверена в пикселе, тем выше шанс ошибки. Авторегрессия заставляет «писать» решение слева-направо, как печатать на машинке без возврата.
Я переделал Qwen3-8B в диффузионный режим: сначала заполняем «лёгкие» токены, потом сложные. На 10 шагах модель быстрее и точнее по пикселям, но решает не больше задач. На 30 шагах точность совпадает с базовой, а время выше — из-за отсутствия кеширования.
Как работает генерация
- Кодируем вход как обычный LLM.
- Случайно маскируем 80 % выходных токенов.
- На каждом шаге модель предсказывает маскированные токены; выбираем наиболее вероятные и «размаскиваем».
- Повторяем, пока не останется масков.
Почему +1 % к пикселям ≠ +1 % к задачам
ARC требует абсолютного совпадения всей сетки. Даже 1 ошибка = 0 баллов. Диффузия чаще «почти» правильна, но «почти» не считается.
Технические детали
- Архитектура: обычный декодер → полносвязный «энкодер» без кэша.
- Обучение: 1 эпоха, lr 5e-5, batch 64, маскирование 80 %, аугментации поворот/отражение.
- Данные: 400 задач ARC + 800 синтетических, длина фиксирована 4096 токенов.
Результаты на eval-2025
Метод | Время | Точн. токенов | Решено задач |
---|---|---|---|
Авторегрессия | 1× | 94 % | 21 % |
Диффузия 10 шагов | 0.6× | 95 % | 19 % |
Диффузия 30 шагов | 1.3× | 94 % | 21 % |
Следующие шаги
- Вернуть кеш входных токенов, ограничив пересчёт скрытых состояний.
- Увеличить шаги до 50–100 при сохранении скорости.
- Попробовать «гибрид»: диффузия для грубой раскладки, авторегрессия для деталей.
Комментарии (15)
- @radarsat1 предложил добавить в генерацию LLM «токен backspace» для отмены уже выданных токенов, но @imtringued и @_diyar отметили, что при обычной однонаправленной архитектуре это сводится к возврату к прежнему состоянию и не решает проблему.
- @dev_hugepages указал на исследование (2306.05426), где такой механизм уже реализован в рамках IL-обучения.
- @mNovak отметил, что диффузионная модель решает головоломки итеративно, но «раскрывает» слишком мало токенов за ход, тратя лишние раунды.
- @namibj подчеркнул необходимость механизма «retraction», чтобы избежать застревания на ошибочных решениях.
- @twotwotwo заметил парадокс: люди чаще редактируют код, а LLM генерируют его целиком, что делает правку затратной.