R-Zero: Self-Evolving Reasoning LLM from Zero Data

R-Zero — это метод, который учит языковую модель рассуждать, не используя ни одного человеческого примера.
Ключевая идея: модель сама генерирует задачи, решает их, проверяет ответы и оставляет только правильные цепочки мыслей. Эти «чистые» примеры сразу же идут в дообучение. Процесс повторяется циклически: чем лучше становится модель, тем сложнее и качественнее задачи она себе придумывает.

Алгоритм за один цикл:

Сэмплируем случайный топик и просим модель придумать задачу.
Просим сгенерировать решение в виде цепочки рассуждений.
Даём модели тот же вопрос, но теперь требуем краткий финальный ответ.
Сравниваем два ответа; если совпали — цепочка считается верной и сохраняется.
На собранных «правильных» примерах делаем шаг SFT.

Чтобы не «схлопнуться» на простых темах, в генерацию добавляют случайный уровень сложности и случайный предмет. Для проверки используются как точные (арифметика, логика), так и приближённые критерии (самосогласованность, повторное голосование).

Эксперименты на базе Llama-3-8B показали:

Всего 10 циклов × 20k примеров → +20% на GSM8K и +15% на MATH без единого человеческого примера.
R-Zero догоняет модель, обученную на 750k размеченных цепочках от человека.
При добавлении 5k человеческих примеров результат превышает лучшие supervised-базлайны.

Вывод: модель может «вырасти» из нуля, постоянно улучшая себя собственными правильными рассуждениями.

Комментарии (51)

Участники спорят, возможно ли «обучение с нуля» без внешних данных: кто-то видит в этом GAN-подобный процесс, кто-то называет «информационным вечным двигателем».
Главный вопрос — что служит «дискриминатором» реальности: если только внутренние игры Challenger/Solver, риск усиления галлюцинаций высок.
Название «R-Zero» вызвало недовольство: у DeepSeek уже была модель R-Zero, и путаница неуместна.
Скептики сравнивают идею с perpetuum mobile и шутят о «бесплатной энергии» через +0,25 % в год.
Практическая польза — экономия на дообучении: сжатие большой модели в меньшую без новых данных, но в рамках уже освоенного распределения.