GPT-OSS Reinforcement Learning
Unsloth теперь поддерживает обучение с подкреплением для OpenAI gpt-oss и всех типов моделей, что значительно ускоряет процесс тонкой настройки. Это позволяет эффективно применять методы RL, такие как DPO, ORPO и KTO, для улучшения качества генерации текста и рассуждений модели.
Практический вывод: пользователи могут обучать собственные модели рассуждений с помощью GRPO, экономя память и вычислительные ресурсы. Это открывает возможности для создания более интеллектуальных и адаптивных ИИ-систем без необходимости мощного оборудования.