Qwen3-4B-Thinking-2507
-
За 3 месяца мы масштабировали «мышление» Qwen3-4B: выше качество и глубина рассуждений. Представляем Qwen3-4B-Thinking-2507:
- Существенно лучше на задачах логики, математики, науки, кода и академических бенчмарках.
- Улучшены общие навыки: следование инструкциям, инструменты, генерация текста, согласование с предпочтениями.
- Расширено понимание длинного контекста: 256K.
- Версия с увеличенной длиной «мышления» — рекомендуем для сложных задач.
-
Обзор модели:
- Тип: Causal LM; Этапы: пре-/посттренировка.
- Параметры: 4.0B (без эмбеддингов 3.6B); Слоёв: 36; GQA: 32 Q / 8 KV.
- Контекст: 262 144 токенов.
- Поддерживается только режим «thinking»; enable_thinking=True не нужен. Шаблон чата добавляет <think> автоматически; нормален вывод, содержащий только </think>.
- Подробности: блог, GitHub, документация.
-
Производительность (избранное):
- Знания: MMLU-Pro 74.0; MMLU-Redux 86.1; GPQA 65.8.
- Рассуждения: AIME25 81.3; HMMT25 55.5; LiveBench 71.8.
- Код: LiveCodeBench v6 55.2; CFEval 1852; OJBench 17.9.
- Алайнмент: IFEval 87.4; Arena-Hard v2 34.9; WritingBench 83.3.
- Агенты: BFCL-v3 71.2; TAU1/2 — лучшие в ряде доменов.
- Мультиязычность: MultiIF 77.3; PolyMATH 46.2.
- Примечания: выигрыш на Arena — GPT-4.1; для сложных задач — вывод до 81 920 токенов, иначе 32 768.
-
Быстрый старт:
- Нужен свежий transformers (иначе KeyError: 'qwen3').
- Пример кода: загрузить AutoTokenizer/AutoModelForCausalLM, применить chat template, сгенерировать до 32 768 новых токенов, выделить «thinking»-часть до токена </think> (ID 151668) и основное содержимое.
- Для продакшна: sglang>=0.4.6.post1 или vllm>=0.8.5; можно поднять OpenAI-совместимый сервис.