Hacker News Digest

Тег: #gpt-oss

Постов: 5

GPT-OSS Reinforcement Learning (docs.unsloth.ai)

Unsloth теперь поддерживает обучение с подкреплением для OpenAI gpt-oss и всех типов моделей, что значительно ускоряет процесс тонкой настройки. Это позволяет эффективно применять методы RL, такие как DPO, ORPO и KTO, для улучшения качества генерации текста и рассуждений модели.

Практический вывод: пользователи могут обучать собственные модели рассуждений с помощью GRPO, экономя память и вычислительные ресурсы. Это открывает возможности для создания более интеллектуальных и адаптивных ИИ-систем без необходимости мощного оборудования.

by vinhnx • 27 сентября 2025 г. в 02:01 • 143 points

ОригиналHN

#reinforcement-learning#openai#gpt-oss#dpo#orpo#kto#grpo#vllm#reward-hacking#llm

Комментарии (37)

  • Благодарность Unsloth за реализацию режима сна в vLLM, упрощающего RL-обучение и делающего его более доступным.
  • Споры о качестве модели GPT-OSS: одни пользователи считают её устаревшей, другие приводят примеры её эффективности в конкретных задачах.
  • Обсуждение практической пользы дообучения моделей для бизнеса и локального использования, включая работу с редкими языками.
  • Акцент на демонстрации в релизе Unsloth методов борьбы с читерством (reward hacking) в reinforcement learning.
  • Упоминание инструмента DeepFabric для генерации данных в формате OpenAI.

Qwen3-Next (qwen.ai) 🔥 Горячее 💬 Длинная дискуссия

Конечно! Пожалуйста, пришлите текст, который нужно перевести и сократить.

by tosh • 12 сентября 2025 г. в 06:32 • 516 points

ОригиналHN

#qwen#moe#gpu#gpt-oss#gguf#vram#jevons-effect#offline-conversion

Комментарии (198)

  • Qwen3-Next: 80B MoE, линейное внимание, MTP без +2 ГБ матриц; 256K контекст, 1M через YaRN.
  • На чате 80B-A3B работает как 235B-A22B, быстрее 14B-плотных, укладывается в 64 ГБ ОЗУ.
  • Код: GPT-OSS-20B-уровень, ASCII-арт «СпанчБоб» выдаётся без запоминания, MoE-шум заметен.
  • Эффективность 10× вызывает споры: Jevons-эффект → тренируют ещё больше, спрос на GPU не падает.
  • GGUF/VRAM пока не выложены, цена выше GPT-OSS-120B; ждут open-бенчмарков и офлайн-конвертации.

Evaluating LLMs for my personal use case (darkcoding.net)

Краткий итог тестов LLM для личных задач

  • Цель: найти быструю и дешёвую модель для простых вопросов по Rust, Python, Linux и быту.
  • Данные: 130 реальных запросов из bash-истории, разбитые на программирование, администрирование, объяснения, общие знания.
  • Платформа: OpenRouter через собственный Rust-клиент ort.
  • Тестовые модели: Claude-4 Sonnet, DeepSeek-chat-v3, DeepSeek-r1, Gemini 2.5 Flash/Pro, Kimi-k2, GPT-OSS-120B, Qwen3 235B (обычный и thinking), GLM-4.5, а также Mercury-Coder, Devstral, Qwen3-Coder для кода.

Выводы

  • Почти все модели справляются; различия в качестве минимальны.
  • Критерии победы: цена и скорость. Запросы стоят доли цента, но латентность варьируется в десятки раз.
  • Закрытые модели не лидируют: Gemini Pro самый дорогой и многословный; Flash быстрее всех, но не всегда лучше.
  • Режим «рассуждений» почти не нужен, кроме творческих заданий (стихи).
  • Победители по категориям
    • Программирование: Mercury-Coder (сверхбыстрый диффузионный), DeepSeek-r1, GLM-4.5.
    • Сисадмин: Gemini 2.5 Flash.
    • Объяснения: Qwen3 235B.
    • Общие знания: GPT-OSS-120B.

Инсайт: для рутинных задач выбирайте самую дешёвую и быструю модель, которая «достаточно хороша».

by goranmoomin • 24 августа 2025 г. в 00:40 • 83 points

ОригиналHN

#rust#python#linux#openrouter#claud-4-sonnet#deepseek-chat-v3#gemini#gpt-oss#qwen3#glm-4.5

Комментарии (28)

  • Google Gemini 2.5 Flash признан «рабочей лошадкой»: быстро, дёшево, мультимодален и способен пережёвывать 100 k запросов за €30.
  • Большинство участников жалуются на «сговор» моделей: при творческих задачах 6 из 11 LLM выдают один и тот же ответ, что убивает креатив.
  • Локальный запуск: на Mac Mini 64 ГБ уверенно работают модели < 32 B; фаворит — gpt-oss-20b (11 ГБ RAM) и семейство Qwen 3.
  • Для выбора «одной на всё» многие выбирают deepseek-chat-v3-0324 как компромисс скорость/цена/качество.
  • Трения с API: OpenAI требует KYC, Claude доступен не везде, поэтому кто-то использует Kagi, Perplexity или OpenRouter, чтобы «пощупать» все модели без лишних ключей.

GPT-OSS vs. Qwen3 and a detailed look how things evolved since GPT-2 (magazine.sebastianraschka.com) 🔥 Горячее

  • gpt-oss-20b/120b — первые с 2019 г. открытые веса от OpenAI; запускаются на одной GPU благодаря MXFP4 (4-битные веса + 8-битные активации).
  • Архитектура классическая: RoPE, RMSNorm, SwiGLU, без MoE. Отличия от GPT-2: больше слоёв и голов, но уже контекст (8k → 32k).
  • Глубина vs ширина: gpt-oss-120b — 120 слоёв, d_model 6144; Qwen3-235B-A22B — 80 слоёв, d_model 9216. Увеличение глубины дешевле при прочих равных.
  • Attention sink — первые 4 токена не вытесняются из KV-кэша, что стабилизирует длинные контексты.
  • Сравнение (MMLU, GSM8K, HumanEval): gpt-oss-120b ≈ Qwen3-30B-A3B, уступает Qwen3-235B-A22B и GPT-4o, но обгоняет Llama-3-70B.
  • GPT-5 (анонс) будет гибридным (dense + MoE), 1–2 трлн параметров, обучен на gpt-oss как teacher.

by ModelForge • 10 августа 2025 г. в 15:06 • 450 points

ОригиналHN

#gpt-oss#qwen3#gpt-2#rope#swiglu#mofe#mxfp4#machine-learning#deep-learning#natural-language-processing

Комментарии (95)

  • GPT-OSS не предлагает революционной архитектуры, а аккуратно комбинирует известные оптимизации (RoPE, SwiGLU, GQA, MoE) и MXFP4-квант.
  • На практике Qwen3 (особенно coder-варианты 30–32 B) чаще хвалят: быстрее, точнее следует инструкциям, лучше справляется с кодом.
  • GPT-OSS-120 B показывает высокие мат-оценки, но «проваливается» в логических бенчмарках и агентных задачах, а 20 B-версия может зацикливаться.
  • Большинство считает, что ключевое различие — не архитектура, а данные и пайплайн обучения.
  • Локальные 4–5-битные кванты Qwen3 укладываются в 12–20 GB VRAM и уже «заменяют» онлайн-модели для многих разработчиков.

Curious about the training data of OpenAI's new GPT-OSS models? I was too (twitter.com)

by flabber • 09 августа 2025 г. в 21:10 • 216 points

ОригиналHN

#openai#gpt-oss#perl#neuralese#twitter#llm

Комментарии (51)

  • Пост критикуют за отсутствие научной строгости: «10 млн случайных примеров» не описаны, а «классификация» языков программирования выглядит ошибочной.
  • Автор, по мнению комментаторов, просто прогнал детектор языков и выдал график, из-за чего Perl кажется «переобученным»; на деле это лишь гибкость языка.
  • Многие цепочки начинаются на английском, но быстро скатываются в «neuralese» — внутренний, человеку нечитаемый «язык» модели, возникающий при отсутствии ограничений на читаемость.
  • «Neuralese» — это не технический термин, а образное обозначение плотного латентного представления, которое модель использует для собственных рассуждений.
  • Пустой промпт выводит модель из распределения и демонстрирует, на каких данных она реально «подсела».