Тег: #self-supervised-learning

R-Zero: Self-Evolving Reasoning LLM from Zero Data (arxiv.org)

R-Zero — это метод, который учит языковую модель рассуждать, не используя ни одного человеческого примера.
Ключевая идея: модель сама генерирует задачи, решает их, проверяет ответы и оставляет только правильные цепочки мыслей. Эти «чистые» примеры сразу же идут в дообучение. Процесс повторяется циклически: чем лучше становится модель, тем сложнее и качественнее задачи она себе придумывает.

Алгоритм за один цикл:

Сэмплируем случайный топик и просим модель придумать задачу.
Просим сгенерировать решение в виде цепочки рассуждений.
Даём модели тот же вопрос, но теперь требуем краткий финальный ответ.
Сравниваем два ответа; если совпали — цепочка считается верной и сохраняется.
На собранных «правильных» примерах делаем шаг SFT.

Чтобы не «схлопнуться» на простых темах, в генерацию добавляют случайный уровень сложности и случайный предмет. Для проверки используются как точные (арифметика, логика), так и приближённые критерии (самосогласованность, повторное голосование).

Эксперименты на базе Llama-3-8B показали:

Всего 10 циклов × 20k примеров → +20% на GSM8K и +15% на MATH без единого человеческого примера.
R-Zero догоняет модель, обученную на 750k размеченных цепочках от человека.
При добавлении 5k человеческих примеров результат превышает лучшие supervised-базлайны.

Вывод: модель может «вырасти» из нуля, постоянно улучшая себя собственными правильными рассуждениями.

by lawrenceyan • 10 сентября 2025 г. в 02:02 • 98 points

Оригинал • HN

#machine-learning #llm #self-supervised-learning #natural-language-processing #llama-3-8b #gsm8k #math #deepseek #arxiv #r

Комментарии (51)

Участники спорят, возможно ли «обучение с нуля» без внешних данных: кто-то видит в этом GAN-подобный процесс, кто-то называет «информационным вечным двигателем».
Главный вопрос — что служит «дискриминатором» реальности: если только внутренние игры Challenger/Solver, риск усиления галлюцинаций высок.
Название «R-Zero» вызвало недовольство: у DeepSeek уже была модель R-Zero, и путаница неуместна.
Скептики сравнивают идею с perpetuum mobile и шутят о «бесплатной энергии» через +0,25 % в год.
Практическая польза — экономия на дообучении: сжатие большой модели в меньшую без новых данных, но в рамках уже освоенного распределения.

DINOv3 (github.com)

DINOv3 — PyTorch-реализация и модели от Facebook Research.
Репозиторий содержит код, веса и примеры для самостоятельного обучения и дообучения.

Ключевые возможности

Архитектура ViT: поддержка разных размеров (Small, Base, Large, Giant).
Предобученные веса: ImageNet-22k, ImageNet-1k, SAM, COCO, ADE20k.
Zero-shot классификация и сегментация без дообучения.
Лёгкое дообучение: скрипты для классификации, детекции, сегментации.

Установка

git clone https://github.com/facebookresearch/dinov3
cd dinov3
pip install -r requirements.txt

Быстрый старт

from dinov3 import DinoVisionTransformer, load_pretrained

model = load_pretrained("dinov3_vitb14")
features = model.extract_features(image)

Лицензия

MIT (код) + CC-BY-NC 4.0 (веса).

by reqo • 14 августа 2025 г. в 20:02 • 158 points

Оригинал • HN

#pytorch #vit #facebook-research #imagenet #self-supervised-learning #computer-vision #machine-learning #deep-learning #github

Комментарии (28)

Meta выпустила DINOv3 — самонадзорную модель зрения, обученную на 1,2 млрд изображений и выдающую плотные эмбеддинги без дообучения.
Для спутниковых снимков появилась специальная версия, что радует специалистов по аэро- и спутниковым данным.
Модель можно использовать как прямую замену DINOv2 в существующих пайплайнах (см. примеры в репозитории и ноутбуках).
Лицензия новая и более ограниченная, чем Apache 2.0 у DINOv2; доступ требует регистрации и одобрения Meta.
Сообщество отмечает высокое качество эмбеддингов, но разочаровано коммерческой лицензией.