DINOv3
DINOv3 — PyTorch-реализация и модели от Facebook Research.
Репозиторий содержит код, веса и примеры для самостоятельного обучения и дообучения.
Ключевые возможности
- Архитектура ViT: поддержка разных размеров (Small, Base, Large, Giant).
- Предобученные веса: ImageNet-22k, ImageNet-1k, SAM, COCO, ADE20k.
- Zero-shot классификация и сегментация без дообучения.
- Лёгкое дообучение: скрипты для классификации, детекции, сегментации.
Установка
git clone https://github.com/facebookresearch/dinov3
cd dinov3
pip install -r requirements.txt
Быстрый старт
from dinov3 import DinoVisionTransformer, load_pretrained
model = load_pretrained("dinov3_vitb14")
features = model.extract_features(image)
Лицензия
MIT (код) + CC-BY-NC 4.0 (веса).
Комментарии (28)
- Meta выпустила DINOv3 — самонадзорную модель зрения, обученную на 1,2 млрд изображений и выдающую плотные эмбеддинги без дообучения.
- Для спутниковых снимков появилась специальная версия, что радует специалистов по аэро- и спутниковым данным.
- Модель можно использовать как прямую замену DINOv2 в существующих пайплайнах (см. примеры в репозитории и ноутбуках).
- Лицензия новая и более ограниченная, чем Apache 2.0 у DINOv2; доступ требует регистрации и одобрения Meta.
- Сообщество отмечает высокое качество эмбеддингов, но разочаровано коммерческой лицензией.
Hand-picked selection of articles on AI fundamentals/concepts
- Основы ИИ: статьи о полном цикле — от построения нейросетей до оценки результатов.
- Алгоритмы/архитектуры: линейная и логистическая регрессия, k-ближайших соседей, кластеризация, SVM, наивный Байес, деревья решений, ансамбли, GAN, диффузия, GNN, внимание, CNN, RL, MoE, SSM, агенты, FlashAttention, ускорение моделей, спекулятивное декодирование, кросс-валидация.
- Данные/обучение: сэмплирование, дисбаланс, нормализация, парадигмы обучения, инициализация Xavier, регуляризация, градиентный спуск, функции активации и потерь, дообучение, разбиение данных, batchnorm, dropout, двойной спуск, LoRA, распределённое обучение.
- Речь: обработка речи.
- Зрение: ViT, рецептивное поле, ResNet, генерация изображений GPT-4o.
- NLP: эмбеддинги, задачи NLP, токенизация, трансформеры, LLM, RAG, RLHF, перевод, графы знаний, обнаружение галлюцинаций, NER, RAG, LLMOps, бенчмарки.
- Мультимодальность: VLM, архитектуры VLM, управление компьютером.
- Модели: BERT, GPT, CLIP, Meena, ChatGPT, GPT-4, LLaMA, Alpaca, Gemini, Toolformer, Visual ChatGPT, TaskMatrix, BigBird, o1, DeepSeek, Gemma 3n.
- Оценка: метрики, F-beta, A/B-тесты.
- MLOps: дрейф данных, инструменты и тесты MLOps.
- On-device ИИ: компрессия, PII, федеративное обучение, дифференциальная приватность, трансформеры на устройстве.
- Управление проектами: OKR, RICE, диаграммы Ганта, управление проектами.
- Разное: «Топ-30 Ильи Сацкевера».
Комментарии (13)
- Участники раскритиковали статью за очевидную машинную генерацию и «сливную» подборку источников.
- Подчёркнули, что контент местами бессмысленный и не отражает реальную картину рынка.
- Некоторые обсудили устойчивость рынка инструментов вроде Cursor и отметили, что спрос на «agentic coding» растёт независимо от судьбы отдельных продуктов.
- Один из участников задал вопрос о переходе из веб-разработки в ML и оценке времени на подготовку.
- В целом настроение: «ещё один AI-сгенерированный спам, но библиография пригодится».