Тег: #pytorch — Hacker News Digest

DINOv3 (github.com)

DINOv3 — PyTorch-реализация и модели от Facebook Research.
Репозиторий содержит код, веса и примеры для самостоятельного обучения и дообучения.

Ключевые возможности

Архитектура ViT: поддержка разных размеров (Small, Base, Large, Giant).
Предобученные веса: ImageNet-22k, ImageNet-1k, SAM, COCO, ADE20k.
Zero-shot классификация и сегментация без дообучения.
Лёгкое дообучение: скрипты для классификации, детекции, сегментации.

Установка

git clone https://github.com/facebookresearch/dinov3
cd dinov3
pip install -r requirements.txt

Быстрый старт

from dinov3 import DinoVisionTransformer, load_pretrained

model = load_pretrained("dinov3_vitb14")
features = model.extract_features(image)

Лицензия

MIT (код) + CC-BY-NC 4.0 (веса).

by reqo • 14 августа 2025 г. в 20:02 • 158 points

Оригинал • HN

#pytorch #vit #facebook-research #imagenet #self-supervised-learning #computer-vision #machine-learning #deep-learning #github

Комментарии (28)

Meta выпустила DINOv3 — самонадзорную модель зрения, обученную на 1,2 млрд изображений и выдающую плотные эмбеддинги без дообучения.
Для спутниковых снимков появилась специальная версия, что радует специалистов по аэро- и спутниковым данным.
Модель можно использовать как прямую замену DINOv2 в существующих пайплайнах (см. примеры в репозитории и ноутбуках).
Лицензия новая и более ограниченная, чем Apache 2.0 у DINOv2; доступ требует регистрации и одобрения Meta.
Сообщество отмечает высокое качество эмбеддингов, но разочаровано коммерческой лицензией.

Gemma 3 270M: Compact model for hyper-efficient AI (developers.googleblog.com) 🔥 Горячее 💬 Длинная дискуссия

Gemma 3 270M — самая маленькая модель семейства Gemma 3, всего 270 млн параметров.
Подходит для запуска на смартфонах, микроконтроллерах и в браузере без облака.

Производительность: на MMLU и HumanEval обгоняет Gemma 2 2B и Llama 3.2 3B, уступает Gemma 3 1B.
Скорость: на Pixel 8 Pro — 1,2 токена/с, на RTX 4090 — 200 токенов/с.
Форматы: Keras, JAX, PyTorch, Gemma.cpp, Ollama, Transformers.
Лицензия: Gemma Terms of Use, коммерческое применение разрешено.

Доступна в Kaggle, Hugging Face, Ollama и через gemma-3-270m-it в Vertex AI.

by meetpateltech • 14 августа 2025 г. в 16:08 • 764 points

Оригинал • HN

#google #vertex-ai #keras #jax #pytorch #ollama #transformers #wordpress #llm

Комментарии (291)

Команда представила Gemma 3 270M — сверхкомпактную модель (241 МБ) для локального запуска и тонкой настройки под узкие задачи.
Пользователи уже тестируют её на телефонах, но жалуются на холлюцинации и слабое следование инструкциям.
Обсуждаются примеры применения: тегирование статей WordPress, NER/перевод, генерация SVG, «умные» клавиатуры, обработка 50 млн строк в день.
Многие спрашивают туториалы по дообучению и сравнение с Qwen 0.6B, который показывает лучшее качество при схожем размере.
Авторы подчеркивают: модель «из коробки» слаба, но после fine-tuning может стать мощным специализированным инструментом.

What's the strongest AI model you can train on a laptop in five minutes? (seangoedecke.com) 🔥 Горячее 💬 Длинная дискуссия

Сильнейшая модель за 5 минут на ноутбуке
Победитель: 1.8-млн-параметровный GPT-подобный трансформер, обученный на ~20 млн токенов TinyStories и показавший 9.6 перплексии. Пример:

Once upon a time, there was a little boy named Tim…

Ограничение времени

5 минут — это ~300 млн токен-шагов. Большие модели не успевают, мелкие (10 k) быстро выходят на плато. Оптимум — 1-2 млн параметров.

Скорость

На M1 Pro (MPS) достигал 3000 ток/с.

torch.compile, float16, MLX — без выгоды.
Градиентное накопление тормозит.
Главное: минимальный размер модели и MPS.

Датасет

Simple Wikipedia давала факты без смысла («Paris, France is a city in North Carolina»).
TinyStories (рассказы уровня 4-летнего) — простые паттерны, мало имён, быстрая сходимость.

by ingve • 12 августа 2025 г. в 13:15 • 504 points

Оригинал • HN

#llm #transformers #pytorch #mlx #machine-learning #natural-language-processing #tiny-stories #mps #optimization #model-training

Комментарии (181)

Обсуждение вращается вокруг тренировки маленьких языковых моделей на ноутбуке: почему это важно для науки и практики.
Участники сравнивают ограничения по времени, энергии (джоулям) и железу; предлагают «AI-олимпиаду» за лучший результат на данный бюджет.
Приводятся конкретные приёмы: Muon-оптимизатор, улучшенная инициализация, «cramming» за день на лэптопе, идея специализированных моделей «под задачу».
Задаются вопросы о данных, переобучении, диффузных архитектурах и о том, когда марковская цепь окажется достаточной.
В целом тон оптимистичен: даже на обычном ноутбуке можно быстро экспериментировать и учиться, не дожидаясь супер-кластеров.