Hacker News Digest

27 сентября 2025 г. в 02:01 • docs.unsloth.ai • ⭐ 143 • 💬 37

OriginalHN

#reinforcement-learning#openai#gpt-oss#dpo#orpo#kto#grpo#vllm#reward-hacking#llm

GPT-OSS Reinforcement Learning

Unsloth теперь поддерживает обучение с подкреплением для OpenAI gpt-oss и всех типов моделей, что значительно ускоряет процесс тонкой настройки. Это позволяет эффективно применять методы RL, такие как DPO, ORPO и KTO, для улучшения качества генерации текста и рассуждений модели.

Практический вывод: пользователи могут обучать собственные модели рассуждений с помощью GRPO, экономя память и вычислительные ресурсы. Это открывает возможности для создания более интеллектуальных и адаптивных ИИ-систем без необходимости мощного оборудования.