Hacker News Digest

Тег: #computer-vision

Постов: 2

DINOv3 (github.com)

DINOv3 — PyTorch-реализация и модели от Facebook Research.
Репозиторий содержит код, веса и примеры для самостоятельного обучения и дообучения.

Ключевые возможности

  • Архитектура ViT: поддержка разных размеров (Small, Base, Large, Giant).
  • Предобученные веса: ImageNet-22k, ImageNet-1k, SAM, COCO, ADE20k.
  • Zero-shot классификация и сегментация без дообучения.
  • Лёгкое дообучение: скрипты для классификации, детекции, сегментации.

Установка

git clone https://github.com/facebookresearch/dinov3
cd dinov3
pip install -r requirements.txt

Быстрый старт

from dinov3 import DinoVisionTransformer, load_pretrained

model = load_pretrained("dinov3_vitb14")
features = model.extract_features(image)

Лицензия

MIT (код) + CC-BY-NC 4.0 (веса).

by reqo • 14 августа 2025 г. в 20:02 • 158 points

ОригиналHN

#pytorch#vit#facebook-research#imagenet#self-supervised-learning#computer-vision#machine-learning#deep-learning#github

Комментарии (28)

  • Meta выпустила DINOv3 — самонадзорную модель зрения, обученную на 1,2 млрд изображений и выдающую плотные эмбеддинги без дообучения.
  • Для спутниковых снимков появилась специальная версия, что радует специалистов по аэро- и спутниковым данным.
  • Модель можно использовать как прямую замену DINOv2 в существующих пайплайнах (см. примеры в репозитории и ноутбуках).
  • Лицензия новая и более ограниченная, чем Apache 2.0 у DINOv2; доступ требует регистрации и одобрения Meta.
  • Сообщество отмечает высокое качество эмбеддингов, но разочаровано коммерческой лицензией.

Hand-picked selection of articles on AI fundamentals/concepts (aman.ai)

  • Основы ИИ: статьи о полном цикле — от построения нейросетей до оценки результатов.
  • Алгоритмы/архитектуры: линейная и логистическая регрессия, k-ближайших соседей, кластеризация, SVM, наивный Байес, деревья решений, ансамбли, GAN, диффузия, GNN, внимание, CNN, RL, MoE, SSM, агенты, FlashAttention, ускорение моделей, спекулятивное декодирование, кросс-валидация.
  • Данные/обучение: сэмплирование, дисбаланс, нормализация, парадигмы обучения, инициализация Xavier, регуляризация, градиентный спуск, функции активации и потерь, дообучение, разбиение данных, batchnorm, dropout, двойной спуск, LoRA, распределённое обучение.
  • Речь: обработка речи.
  • Зрение: ViT, рецептивное поле, ResNet, генерация изображений GPT-4o.
  • NLP: эмбеддинги, задачи NLP, токенизация, трансформеры, LLM, RAG, RLHF, перевод, графы знаний, обнаружение галлюцинаций, NER, RAG, LLMOps, бенчмарки.
  • Мультимодальность: VLM, архитектуры VLM, управление компьютером.
  • Модели: BERT, GPT, CLIP, Meena, ChatGPT, GPT-4, LLaMA, Alpaca, Gemini, Toolformer, Visual ChatGPT, TaskMatrix, BigBird, o1, DeepSeek, Gemma 3n.
  • Оценка: метрики, F-beta, A/B-тесты.
  • MLOps: дрейф данных, инструменты и тесты MLOps.
  • On-device ИИ: компрессия, PII, федеративное обучение, дифференциальная приватность, трансформеры на устройстве.
  • Управление проектами: OKR, RICE, диаграммы Ганта, управление проектами.
  • Разное: «Топ-30 Ильи Сацкевера».

by vinhnx • 11 августа 2025 г. в 08:59 • 185 points

ОригиналHN

#neural-networks#machine-learning#deep-learning#gan#gnn#cnn#reinforcement-learning#natural-language-processing#computer-vision#agentic-coding

Комментарии (13)

  • Участники раскритиковали статью за очевидную машинную генерацию и «сливную» подборку источников.
  • Подчёркнули, что контент местами бессмысленный и не отражает реальную картину рынка.
  • Некоторые обсудили устойчивость рынка инструментов вроде Cursor и отметили, что спрос на «agentic coding» растёт независимо от судьбы отдельных продуктов.
  • Один из участников задал вопрос о переходе из веб-разработки в ML и оценке времени на подготовку.
  • В целом настроение: «ещё один AI-сгенерированный спам, но библиография пригодится».