R-Zero: Self-Evolving Reasoning LLM from Zero Data
R-Zero — это метод, который учит языковую модель рассуждать, не используя ни одного человеческого примера.
Ключевая идея: модель сама генерирует задачи, решает их, проверяет ответы и оставляет только правильные цепочки мыслей. Эти «чистые» примеры сразу же идут в дообучение. Процесс повторяется циклически: чем лучше становится модель, тем сложнее и качественнее задачи она себе придумывает.
Алгоритм за один цикл:
- Сэмплируем случайный топик и просим модель придумать задачу.
- Просим сгенерировать решение в виде цепочки рассуждений.
- Даём модели тот же вопрос, но теперь требуем краткий финальный ответ.
- Сравниваем два ответа; если совпали — цепочка считается верной и сохраняется.
- На собранных «правильных» примерах делаем шаг SFT.
Чтобы не «схлопнуться» на простых темах, в генерацию добавляют случайный уровень сложности и случайный предмет. Для проверки используются как точные (арифметика, логика), так и приближённые критерии (самосогласованность, повторное голосование).
Эксперименты на базе Llama-3-8B показали:
- Всего 10 циклов × 20k примеров → +20% на GSM8K и +15% на MATH без единого человеческого примера.
- R-Zero догоняет модель, обученную на 750k размеченных цепочках от человека.
- При добавлении 5k человеческих примеров результат превышает лучшие supervised-базлайны.
Вывод: модель может «вырасти» из нуля, постоянно улучшая себя собственными правильными рассуждениями.