Hacker News Digest

Тег: #pytorch

Постов: 3

DINOv3 (github.com)

DINOv3 — PyTorch-реализация и модели от Facebook Research.
Репозиторий содержит код, веса и примеры для самостоятельного обучения и дообучения.

Ключевые возможности

  • Архитектура ViT: поддержка разных размеров (Small, Base, Large, Giant).
  • Предобученные веса: ImageNet-22k, ImageNet-1k, SAM, COCO, ADE20k.
  • Zero-shot классификация и сегментация без дообучения.
  • Лёгкое дообучение: скрипты для классификации, детекции, сегментации.

Установка

git clone https://github.com/facebookresearch/dinov3
cd dinov3
pip install -r requirements.txt

Быстрый старт

from dinov3 import DinoVisionTransformer, load_pretrained

model = load_pretrained("dinov3_vitb14")
features = model.extract_features(image)

Лицензия

MIT (код) + CC-BY-NC 4.0 (веса).

by reqo • 14 августа 2025 г. в 20:02 • 158 points

ОригиналHN

#pytorch#vit#facebook-research#imagenet#self-supervised-learning#computer-vision#machine-learning#deep-learning#github

Комментарии (28)

  • Meta выпустила DINOv3 — самонадзорную модель зрения, обученную на 1,2 млрд изображений и выдающую плотные эмбеддинги без дообучения.
  • Для спутниковых снимков появилась специальная версия, что радует специалистов по аэро- и спутниковым данным.
  • Модель можно использовать как прямую замену DINOv2 в существующих пайплайнах (см. примеры в репозитории и ноутбуках).
  • Лицензия новая и более ограниченная, чем Apache 2.0 у DINOv2; доступ требует регистрации и одобрения Meta.
  • Сообщество отмечает высокое качество эмбеддингов, но разочаровано коммерческой лицензией.

Gemma 3 270M: Compact model for hyper-efficient AI (developers.googleblog.com) 🔥 Горячее 💬 Длинная дискуссия

Gemma 3 270M — самая маленькая модель семейства Gemma 3, всего 270 млн параметров.
Подходит для запуска на смартфонах, микроконтроллерах и в браузере без облака.

  • Производительность: на MMLU и HumanEval обгоняет Gemma 2 2B и Llama 3.2 3B, уступает Gemma 3 1B.
  • Скорость: на Pixel 8 Pro — 1,2 токена/с, на RTX 4090 — 200 токенов/с.
  • Форматы: Keras, JAX, PyTorch, Gemma.cpp, Ollama, Transformers.
  • Лицензия: Gemma Terms of Use, коммерческое применение разрешено.

Доступна в Kaggle, Hugging Face, Ollama и через gemma-3-270m-it в Vertex AI.

by meetpateltech • 14 августа 2025 г. в 16:08 • 764 points

ОригиналHN

#google#vertex-ai#keras#jax#pytorch#ollama#transformers#wordpress#llm

Комментарии (291)

  • Команда представила Gemma 3 270M — сверхкомпактную модель (241 МБ) для локального запуска и тонкой настройки под узкие задачи.
  • Пользователи уже тестируют её на телефонах, но жалуются на холлюцинации и слабое следование инструкциям.
  • Обсуждаются примеры применения: тегирование статей WordPress, NER/перевод, генерация SVG, «умные» клавиатуры, обработка 50 млн строк в день.
  • Многие спрашивают туториалы по дообучению и сравнение с Qwen 0.6B, который показывает лучшее качество при схожем размере.
  • Авторы подчеркивают: модель «из коробки» слаба, но после fine-tuning может стать мощным специализированным инструментом.

What's the strongest AI model you can train on a laptop in five minutes? (seangoedecke.com) 🔥 Горячее 💬 Длинная дискуссия

Сильнейшая модель за 5 минут на ноутбуке
Победитель: 1.8-млн-параметровный GPT-подобный трансформер, обученный на ~20 млн токенов TinyStories и показавший 9.6 перплексии. Пример:

Once upon a time, there was a little boy named Tim…

Ограничение времени

5 минут — это ~300 млн токен-шагов. Большие модели не успевают, мелкие (10 k) быстро выходят на плато. Оптимум — 1-2 млн параметров.

Скорость

На M1 Pro (MPS) достигал 3000 ток/с.

  • torch.compile, float16, MLX — без выгоды.
  • Градиентное накопление тормозит.
  • Главное: минимальный размер модели и MPS.

Датасет

Simple Wikipedia давала факты без смысла («Paris, France is a city in North Carolina»).
TinyStories (рассказы уровня 4-летнего) — простые паттерны, мало имён, быстрая сходимость.

by ingve • 12 августа 2025 г. в 13:15 • 504 points

ОригиналHN

#llm#transformers#pytorch#mlx#machine-learning#natural-language-processing#tiny-stories#mps#optimization#model-training

Комментарии (181)

  • Обсуждение вращается вокруг тренировки маленьких языковых моделей на ноутбуке: почему это важно для науки и практики.
  • Участники сравнивают ограничения по времени, энергии (джоулям) и железу; предлагают «AI-олимпиаду» за лучший результат на данный бюджет.
  • Приводятся конкретные приёмы: Muon-оптимизатор, улучшенная инициализация, «cramming» за день на лэптопе, идея специализированных моделей «под задачу».
  • Задаются вопросы о данных, переобучении, диффузных архитектурах и о том, когда марковская цепь окажется достаточной.
  • В целом тон оптимистичен: даже на обычном ноутбуке можно быстро экспериментировать и учиться, не дожидаясь супер-кластеров.