GPT-OSS Reinforcement Learning
Unsloth теперь поддерживает обучение с подкреплением для OpenAI gpt-oss и всех типов моделей, что значительно ускоряет процесс тонкой настройки. Это позволяет эффективно применять методы RL, такие как DPO, ORPO и KTO, для улучшения качества генерации текста и рассуждений модели.
Практический вывод: пользователи могут обучать собственные модели рассуждений с помощью GRPO, экономя память и вычислительные ресурсы. Это открывает возможности для создания более интеллектуальных и адаптивных ИИ-систем без необходимости мощного оборудования.
Комментарии (37)
- Благодарность Unsloth за реализацию режима сна в vLLM, упрощающего RL-обучение и делающего его более доступным.
- Споры о качестве модели GPT-OSS: одни пользователи считают её устаревшей, другие приводят примеры её эффективности в конкретных задачах.
- Обсуждение практической пользы дообучения моделей для бизнеса и локального использования, включая работу с редкими языками.
- Акцент на демонстрации в релизе Unsloth методов борьбы с читерством (reward hacking) в reinforcement learning.
- Упоминание инструмента DeepFabric для генерации данных в формате OpenAI.
Qwen3-Next 🔥 Горячее 💬 Длинная дискуссия
Конечно! Пожалуйста, пришлите текст, который нужно перевести и сократить.
Комментарии (198)
- Qwen3-Next: 80B MoE, линейное внимание, MTP без +2 ГБ матриц; 256K контекст, 1M через YaRN.
- На чате 80B-A3B работает как 235B-A22B, быстрее 14B-плотных, укладывается в 64 ГБ ОЗУ.
- Код: GPT-OSS-20B-уровень, ASCII-арт «СпанчБоб» выдаётся без запоминания, MoE-шум заметен.
- Эффективность 10× вызывает споры: Jevons-эффект → тренируют ещё больше, спрос на GPU не падает.
- GGUF/VRAM пока не выложены, цена выше GPT-OSS-120B; ждут open-бенчмарков и офлайн-конвертации.
Evaluating LLMs for my personal use case
Краткий итог тестов LLM для личных задач
- Цель: найти быструю и дешёвую модель для простых вопросов по Rust, Python, Linux и быту.
- Данные: 130 реальных запросов из
bash-истории, разбитые на программирование, администрирование, объяснения, общие знания. - Платформа: OpenRouter через собственный Rust-клиент
ort. - Тестовые модели: Claude-4 Sonnet, DeepSeek-chat-v3, DeepSeek-r1, Gemini 2.5 Flash/Pro, Kimi-k2, GPT-OSS-120B, Qwen3 235B (обычный и thinking), GLM-4.5, а также Mercury-Coder, Devstral, Qwen3-Coder для кода.
Выводы
- Почти все модели справляются; различия в качестве минимальны.
- Критерии победы: цена и скорость. Запросы стоят доли цента, но латентность варьируется в десятки раз.
- Закрытые модели не лидируют: Gemini Pro самый дорогой и многословный; Flash быстрее всех, но не всегда лучше.
- Режим «рассуждений» почти не нужен, кроме творческих заданий (стихи).
- Победители по категориям
- Программирование: Mercury-Coder (сверхбыстрый диффузионный), DeepSeek-r1, GLM-4.5.
- Сисадмин: Gemini 2.5 Flash.
- Объяснения: Qwen3 235B.
- Общие знания: GPT-OSS-120B.
Инсайт: для рутинных задач выбирайте самую дешёвую и быструю модель, которая «достаточно хороша».
Комментарии (28)
- Google Gemini 2.5 Flash признан «рабочей лошадкой»: быстро, дёшево, мультимодален и способен пережёвывать 100 k запросов за €30.
- Большинство участников жалуются на «сговор» моделей: при творческих задачах 6 из 11 LLM выдают один и тот же ответ, что убивает креатив.
- Локальный запуск: на Mac Mini 64 ГБ уверенно работают модели < 32 B; фаворит — gpt-oss-20b (11 ГБ RAM) и семейство Qwen 3.
- Для выбора «одной на всё» многие выбирают deepseek-chat-v3-0324 как компромисс скорость/цена/качество.
- Трения с API: OpenAI требует KYC, Claude доступен не везде, поэтому кто-то использует Kagi, Perplexity или OpenRouter, чтобы «пощупать» все модели без лишних ключей.
GPT-OSS vs. Qwen3 and a detailed look how things evolved since GPT-2 🔥 Горячее
- gpt-oss-20b/120b — первые с 2019 г. открытые веса от OpenAI; запускаются на одной GPU благодаря MXFP4 (4-битные веса + 8-битные активации).
- Архитектура классическая: RoPE, RMSNorm, SwiGLU, без MoE. Отличия от GPT-2: больше слоёв и голов, но уже контекст (8k → 32k).
- Глубина vs ширина: gpt-oss-120b — 120 слоёв, d_model 6144; Qwen3-235B-A22B — 80 слоёв, d_model 9216. Увеличение глубины дешевле при прочих равных.
- Attention sink — первые 4 токена не вытесняются из KV-кэша, что стабилизирует длинные контексты.
- Сравнение (MMLU, GSM8K, HumanEval): gpt-oss-120b ≈ Qwen3-30B-A3B, уступает Qwen3-235B-A22B и GPT-4o, но обгоняет Llama-3-70B.
- GPT-5 (анонс) будет гибридным (dense + MoE), 1–2 трлн параметров, обучен на gpt-oss как teacher.
Комментарии (95)
- GPT-OSS не предлагает революционной архитектуры, а аккуратно комбинирует известные оптимизации (RoPE, SwiGLU, GQA, MoE) и MXFP4-квант.
- На практике Qwen3 (особенно coder-варианты 30–32 B) чаще хвалят: быстрее, точнее следует инструкциям, лучше справляется с кодом.
- GPT-OSS-120 B показывает высокие мат-оценки, но «проваливается» в логических бенчмарках и агентных задачах, а 20 B-версия может зацикливаться.
- Большинство считает, что ключевое различие — не архитектура, а данные и пайплайн обучения.
- Локальные 4–5-битные кванты Qwen3 укладываются в 12–20 GB VRAM и уже «заменяют» онлайн-модели для многих разработчиков.
Комментарии (51)
- Пост критикуют за отсутствие научной строгости: «10 млн случайных примеров» не описаны, а «классификация» языков программирования выглядит ошибочной.
- Автор, по мнению комментаторов, просто прогнал детектор языков и выдал график, из-за чего Perl кажется «переобученным»; на деле это лишь гибкость языка.
- Многие цепочки начинаются на английском, но быстро скатываются в «neuralese» — внутренний, человеку нечитаемый «язык» модели, возникающий при отсутствии ограничений на читаемость.
- «Neuralese» — это не технический термин, а образное обозначение плотного латентного представления, которое модель использует для собственных рассуждений.
- Пустой промпт выводит модель из распределения и демонстрирует, на каких данных она реально «подсела».