R-Zero: Self-Evolving Reasoning LLM from Zero Data
R-Zero — это метод, который учит языковую модель рассуждать, не используя ни одного человеческого примера.
Ключевая идея: модель сама генерирует задачи, решает их, проверяет ответы и оставляет только правильные цепочки мыслей. Эти «чистые» примеры сразу же идут в дообучение. Процесс повторяется циклически: чем лучше становится модель, тем сложнее и качественнее задачи она себе придумывает.
Алгоритм за один цикл:
- Сэмплируем случайный топик и просим модель придумать задачу.
- Просим сгенерировать решение в виде цепочки рассуждений.
- Даём модели тот же вопрос, но теперь требуем краткий финальный ответ.
- Сравниваем два ответа; если совпали — цепочка считается верной и сохраняется.
- На собранных «правильных» примерах делаем шаг SFT.
Чтобы не «схлопнуться» на простых темах, в генерацию добавляют случайный уровень сложности и случайный предмет. Для проверки используются как точные (арифметика, логика), так и приближённые критерии (самосогласованность, повторное голосование).
Эксперименты на базе Llama-3-8B показали:
- Всего 10 циклов × 20k примеров → +20% на GSM8K и +15% на MATH без единого человеческого примера.
- R-Zero догоняет модель, обученную на 750k размеченных цепочках от человека.
- При добавлении 5k человеческих примеров результат превышает лучшие supervised-базлайны.
Вывод: модель может «вырасти» из нуля, постоянно улучшая себя собственными правильными рассуждениями.
Комментарии (51)
- Участники спорят, возможно ли «обучение с нуля» без внешних данных: кто-то видит в этом GAN-подобный процесс, кто-то называет «информационным вечным двигателем».
- Главный вопрос — что служит «дискриминатором» реальности: если только внутренние игры Challenger/Solver, риск усиления галлюцинаций высок.
- Название «R-Zero» вызвало недовольство: у DeepSeek уже была модель R-Zero, и путаница неуместна.
- Скептики сравнивают идею с perpetuum mobile и шутят о «бесплатной энергии» через +0,25 % в год.
- Практическая польза — экономия на дообучении: сжатие большой модели в меньшую без новых данных, но в рамках уже освоенного распределения.
DINOv3
DINOv3 — PyTorch-реализация и модели от Facebook Research.
Репозиторий содержит код, веса и примеры для самостоятельного обучения и дообучения.
Ключевые возможности
- Архитектура ViT: поддержка разных размеров (Small, Base, Large, Giant).
- Предобученные веса: ImageNet-22k, ImageNet-1k, SAM, COCO, ADE20k.
- Zero-shot классификация и сегментация без дообучения.
- Лёгкое дообучение: скрипты для классификации, детекции, сегментации.
Установка
git clone https://github.com/facebookresearch/dinov3
cd dinov3
pip install -r requirements.txt
Быстрый старт
from dinov3 import DinoVisionTransformer, load_pretrained
model = load_pretrained("dinov3_vitb14")
features = model.extract_features(image)
Лицензия
MIT (код) + CC-BY-NC 4.0 (веса).
Комментарии (28)
- Meta выпустила DINOv3 — самонадзорную модель зрения, обученную на 1,2 млрд изображений и выдающую плотные эмбеддинги без дообучения.
- Для спутниковых снимков появилась специальная версия, что радует специалистов по аэро- и спутниковым данным.
- Модель можно использовать как прямую замену DINOv2 в существующих пайплайнах (см. примеры в репозитории и ноутбуках).
- Лицензия новая и более ограниченная, чем Apache 2.0 у DINOv2; доступ требует регистрации и одобрения Meta.
- Сообщество отмечает высокое качество эмбеддингов, но разочаровано коммерческой лицензией.