Комментарии (105)
- Обсуждение в основном вращается вокруг понятия «пространственный интеллект» и его связи с текущим состоянием ИИ, при этом подчеркивается, что конкретных технических деталей или методологий не раскрыто.
- Участники обсуждения выдвигают сомнения в том, что у компании есть что-то, кроме «собирать пространственные данные», и сравнивают это с ImageNet.
- Обсуждается, что текущие модели не могут обобщать физический мир, и что для этого нужно будет много вычислительных ресурсов.
- Также поднимается вопрос о том, что такое «пространственный интеллект» и как он будет развиваться в будущем.
DINOv3
DINOv3 — PyTorch-реализация и модели от Facebook Research.
Репозиторий содержит код, веса и примеры для самостоятельного обучения и дообучения.
Ключевые возможности
- Архитектура ViT: поддержка разных размеров (Small, Base, Large, Giant).
- Предобученные веса: ImageNet-22k, ImageNet-1k, SAM, COCO, ADE20k.
- Zero-shot классификация и сегментация без дообучения.
- Лёгкое дообучение: скрипты для классификации, детекции, сегментации.
Установка
git clone https://github.com/facebookresearch/dinov3
cd dinov3
pip install -r requirements.txt
Быстрый старт
from dinov3 import DinoVisionTransformer, load_pretrained
model = load_pretrained("dinov3_vitb14")
features = model.extract_features(image)
Лицензия
MIT (код) + CC-BY-NC 4.0 (веса).
Комментарии (28)
- Meta выпустила DINOv3 — самонадзорную модель зрения, обученную на 1,2 млрд изображений и выдающую плотные эмбеддинги без дообучения.
- Для спутниковых снимков появилась специальная версия, что радует специалистов по аэро- и спутниковым данным.
- Модель можно использовать как прямую замену DINOv2 в существующих пайплайнах (см. примеры в репозитории и ноутбуках).
- Лицензия новая и более ограниченная, чем Apache 2.0 у DINOv2; доступ требует регистрации и одобрения Meta.
- Сообщество отмечает высокое качество эмбеддингов, но разочаровано коммерческой лицензией.