Hacker News Digest

Тег: #deep-learning

Постов: 7

DINOv3 (github.com)

DINOv3 — PyTorch-реализация и модели от Facebook Research.
Репозиторий содержит код, веса и примеры для самостоятельного обучения и дообучения.

Ключевые возможности

  • Архитектура ViT: поддержка разных размеров (Small, Base, Large, Giant).
  • Предобученные веса: ImageNet-22k, ImageNet-1k, SAM, COCO, ADE20k.
  • Zero-shot классификация и сегментация без дообучения.
  • Лёгкое дообучение: скрипты для классификации, детекции, сегментации.

Установка

git clone https://github.com/facebookresearch/dinov3
cd dinov3
pip install -r requirements.txt

Быстрый старт

from dinov3 import DinoVisionTransformer, load_pretrained

model = load_pretrained("dinov3_vitb14")
features = model.extract_features(image)

Лицензия

MIT (код) + CC-BY-NC 4.0 (веса).

by reqo • 14 августа 2025 г. в 20:02 • 158 points

ОригиналHN

#pytorch#vit#facebook-research#imagenet#self-supervised-learning#computer-vision#machine-learning#deep-learning#github

Комментарии (28)

  • Meta выпустила DINOv3 — самонадзорную модель зрения, обученную на 1,2 млрд изображений и выдающую плотные эмбеддинги без дообучения.
  • Для спутниковых снимков появилась специальная версия, что радует специалистов по аэро- и спутниковым данным.
  • Модель можно использовать как прямую замену DINOv2 в существующих пайплайнах (см. примеры в репозитории и ноутбуках).
  • Лицензия новая и более ограниченная, чем Apache 2.0 у DINOv2; доступ требует регистрации и одобрения Meta.
  • Сообщество отмечает высокое качество эмбеддингов, но разочаровано коммерческой лицензией.

Hand-picked selection of articles on AI fundamentals/concepts (aman.ai)

  • Основы ИИ: статьи о полном цикле — от построения нейросетей до оценки результатов.
  • Алгоритмы/архитектуры: линейная и логистическая регрессия, k-ближайших соседей, кластеризация, SVM, наивный Байес, деревья решений, ансамбли, GAN, диффузия, GNN, внимание, CNN, RL, MoE, SSM, агенты, FlashAttention, ускорение моделей, спекулятивное декодирование, кросс-валидация.
  • Данные/обучение: сэмплирование, дисбаланс, нормализация, парадигмы обучения, инициализация Xavier, регуляризация, градиентный спуск, функции активации и потерь, дообучение, разбиение данных, batchnorm, dropout, двойной спуск, LoRA, распределённое обучение.
  • Речь: обработка речи.
  • Зрение: ViT, рецептивное поле, ResNet, генерация изображений GPT-4o.
  • NLP: эмбеддинги, задачи NLP, токенизация, трансформеры, LLM, RAG, RLHF, перевод, графы знаний, обнаружение галлюцинаций, NER, RAG, LLMOps, бенчмарки.
  • Мультимодальность: VLM, архитектуры VLM, управление компьютером.
  • Модели: BERT, GPT, CLIP, Meena, ChatGPT, GPT-4, LLaMA, Alpaca, Gemini, Toolformer, Visual ChatGPT, TaskMatrix, BigBird, o1, DeepSeek, Gemma 3n.
  • Оценка: метрики, F-beta, A/B-тесты.
  • MLOps: дрейф данных, инструменты и тесты MLOps.
  • On-device ИИ: компрессия, PII, федеративное обучение, дифференциальная приватность, трансформеры на устройстве.
  • Управление проектами: OKR, RICE, диаграммы Ганта, управление проектами.
  • Разное: «Топ-30 Ильи Сацкевера».

by vinhnx • 11 августа 2025 г. в 08:59 • 185 points

ОригиналHN

#neural-networks#machine-learning#deep-learning#gan#gnn#cnn#reinforcement-learning#natural-language-processing#computer-vision#agentic-coding

Комментарии (13)

  • Участники раскритиковали статью за очевидную машинную генерацию и «сливную» подборку источников.
  • Подчёркнули, что контент местами бессмысленный и не отражает реальную картину рынка.
  • Некоторые обсудили устойчивость рынка инструментов вроде Cursor и отметили, что спрос на «agentic coding» растёт независимо от судьбы отдельных продуктов.
  • Один из участников задал вопрос о переходе из веб-разработки в ML и оценке времени на подготовку.
  • В целом настроение: «ещё один AI-сгенерированный спам, но библиография пригодится».

GPT-OSS vs. Qwen3 and a detailed look how things evolved since GPT-2 (magazine.sebastianraschka.com) 🔥 Горячее

  • gpt-oss-20b/120b — первые с 2019 г. открытые веса от OpenAI; запускаются на одной GPU благодаря MXFP4 (4-битные веса + 8-битные активации).
  • Архитектура классическая: RoPE, RMSNorm, SwiGLU, без MoE. Отличия от GPT-2: больше слоёв и голов, но уже контекст (8k → 32k).
  • Глубина vs ширина: gpt-oss-120b — 120 слоёв, d_model 6144; Qwen3-235B-A22B — 80 слоёв, d_model 9216. Увеличение глубины дешевле при прочих равных.
  • Attention sink — первые 4 токена не вытесняются из KV-кэша, что стабилизирует длинные контексты.
  • Сравнение (MMLU, GSM8K, HumanEval): gpt-oss-120b ≈ Qwen3-30B-A3B, уступает Qwen3-235B-A22B и GPT-4o, но обгоняет Llama-3-70B.
  • GPT-5 (анонс) будет гибридным (dense + MoE), 1–2 трлн параметров, обучен на gpt-oss как teacher.

by ModelForge • 10 августа 2025 г. в 15:06 • 450 points

ОригиналHN

#gpt-oss#qwen3#gpt-2#rope#swiglu#mofe#mxfp4#machine-learning#deep-learning#natural-language-processing

Комментарии (95)

  • GPT-OSS не предлагает революционной архитектуры, а аккуратно комбинирует известные оптимизации (RoPE, SwiGLU, GQA, MoE) и MXFP4-квант.
  • На практике Qwen3 (особенно coder-варианты 30–32 B) чаще хвалят: быстрее, точнее следует инструкциям, лучше справляется с кодом.
  • GPT-OSS-120 B показывает высокие мат-оценки, но «проваливается» в логических бенчмарках и агентных задачах, а 20 B-версия может зацикливаться.
  • Большинство считает, что ключевое различие — не архитектура, а данные и пайплайн обучения.
  • Локальные 4–5-битные кванты Qwen3 укладываются в 12–20 GB VRAM и уже «заменяют» онлайн-модели для многих разработчиков.

Google's Genie is more impressive than GPT5 (theahura.substack.com)

AGI стремится к универсальности, но нельзя просто import everything. Решение — компрессия и обобщение: небольшая модель покрывает огромное пространство задач. Глубокое обучение сжимает терабайты данных в десятки гигабайтов весов, и LLM не только имитируют текст, но и умеют, например, играть в шахматы без явного обучения.

Следующий шаг — world-models, способные представлять не только текст и картинки, но и всю окружающую реальность. Такая модель могла бы «смоделировать Тибет» и сообщить погоду, а робот — планировать движения, опираясь на внутреннюю симуляцию мира. Проблема в колоссальном объёме видеоданных и вычислений, поэтому мало кто рискует.

Google DeepMind рискнул: три дня назад представил Genie 3 (Generative Interactive Environments). Если GPT создаёт текст, Veo и Sora — видео, то Genie превращает описание в интерактивную видеоигру, где можно бродить минутами. Пока коротко, но это качественный скачок и намёк на будущее, где модели будут поддерживать длинную когерентность не только в тексте, но и в «живых» мирах.

by theahura • 08 августа 2025 г. в 14:46 • 177 points

ОригиналHN

#agi#google-deepmind#genie#llm#world-models#deep-learning#machine-learning#google

Комментарии (58)

  • Пользователи высмеяли идею «стимулировать Тибет» вместо обычного запроса погоды.
  • Рынки ставок и графики вызвали споры: одни видят рост ожиданий Gemini-3, другие указывают, что Gemini 2.5 уже выше GPT-5 в бенчмарке.
  • Многие считают статью пустой и отказываются верить демо, пока Genie 3 не станет публично доступен.
  • Обсуждение свелось к тому, что ни GPT-5, ни Gemini пока не близки к AGI, а термин «AGI» постоянно меняется под маркетинг.

Qwen3-4B-Thinking-2507 (huggingface.co)

  • За 3 месяца мы масштабировали «мышление» Qwen3-4B: выше качество и глубина рассуждений. Представляем Qwen3-4B-Thinking-2507:

    • Существенно лучше на задачах логики, математики, науки, кода и академических бенчмарках.
    • Улучшены общие навыки: следование инструкциям, инструменты, генерация текста, согласование с предпочтениями.
    • Расширено понимание длинного контекста: 256K.
    • Версия с увеличенной длиной «мышления» — рекомендуем для сложных задач.
  • Обзор модели:

    • Тип: Causal LM; Этапы: пре-/посттренировка.
    • Параметры: 4.0B (без эмбеддингов 3.6B); Слоёв: 36; GQA: 32 Q / 8 KV.
    • Контекст: 262 144 токенов.
    • Поддерживается только режим «thinking»; enable_thinking=True не нужен. Шаблон чата добавляет <think> автоматически; нормален вывод, содержащий только </think>.
    • Подробности: блог, GitHub, документация.
  • Производительность (избранное):

    • Знания: MMLU-Pro 74.0; MMLU-Redux 86.1; GPQA 65.8.
    • Рассуждения: AIME25 81.3; HMMT25 55.5; LiveBench 71.8.
    • Код: LiveCodeBench v6 55.2; CFEval 1852; OJBench 17.9.
    • Алайнмент: IFEval 87.4; Arena-Hard v2 34.9; WritingBench 83.3.
    • Агенты: BFCL-v3 71.2; TAU1/2 — лучшие в ряде доменов.
    • Мультиязычность: MultiIF 77.3; PolyMATH 46.2.
    • Примечания: выигрыш на Arena — GPT-4.1; для сложных задач — вывод до 81 920 токенов, иначе 32 768.
  • Быстрый старт:

    • Нужен свежий transformers (иначе KeyError: 'qwen3').
    • Пример кода: загрузить AutoTokenizer/AutoModelForCausalLM, применить chat template, сгенерировать до 32 768 новых токенов, выделить «thinking»-часть до токена </think> (ID 151668) и основное содержимое.
    • Для продакшна: sglang>=0.4.6.post1 или vllm>=0.8.5; можно поднять OpenAI-совместимый сервис.

by IdealeZahlen • 06 августа 2025 г. в 15:50 • 187 points

ОригиналHN

#qwen#huggingface#machine-learning#natural-language-processing#transformers#llm#open-source#deep-learning#benchmarking

Комментарии (60)

  • Обсуждают малый открытый модель Qwen3-4B (в т.ч. «Thinking/Instr»), её доступность в LM Studio и на Hugging Face, возможность запуска на ПК, Mac (mlx 4–8 бит) и даже на слабом железе; полный контекст 262k токенов может требовать десятки ГБ RAM.
  • По отзывам: модель быстрая, компактная и по многим бенчмаркам заметно улучшена; в ряде метрик приближается к старой 30B MoE-версии при ~7,5× меньшем размере, но новая 30B-A3B всё же сильнее.
  • Практический опыт: хороша в анализе задач, но встречаются галлюцинации в предложениях/советах.
  • Идёт сравнение с Gemma 3n: на общих тестах (напр. AIME, LiveCodeBench) Qwen3-4B-Thinking показывает значительно более высокие результаты.
  • Обсуждают надёжность метрик: многие бенчмарки оцениваются GPT‑4.1; возникают вопросы о возможной адаптации моделей под «угодные» ответы и нехватке ручного аудита.
  • Для «народных» оценок советуют LM Arena, Artificial Analysis, OpenRouter stats и r/LocalLlama, но подчёркивают ограниченную надёжность толпы.
  • Вопросы пользователей: как соотносится контекст и RAM; варианты для iPhone/Apple Silicon; ссылки на готовые gguf и mlx-сборки предоставлены.

Open music foundation models for full-song generation (map-yue.github.io)

YuE — генеративная модель для создания песен в разных жанрах. Название означает «музыка» и «радость» по-китайски, произносится как «yeah».

Жанры и примеры

  • Metal: агрессивный металкор, гитарные риффы, вокал fry.
  • Jazz: женский блюз, фортепиано, романтичная гитара.
  • Rap: хип-хоп с синтезатором, уличное звучание.
  • Pop: вдохновляющий женский вокал, электроника.

Лирика генерируется GPT; планируется добавить мировую музыку, включая Пекинскую оперу.

by selvan • 04 августа 2025 г. в 10:46 • 113 points

ОригиналHN

#generative-ai#llm#music-generation#deep-learning#machine-learning

Комментарии (61)

  • Пользователи заметили, что первые секунды «AI death-growl» почти дословно повторяют фрагмент Behemoth «Ov Fire and the Void».
  • Основной запрос — не полные треки, а практичные инструменты: стилевой transfer, восстановление плохих записей, генерация отдельных партий/loop-ов, «бесконечный Splice».
  • Упомянуты нишевые, но живые идеи: AI-драммер в Logic, live-джем с виртуальным гитаристом, VST-плагины для DAW.
  • Сценарии использования делятся на три группы: фон для видео/подкастов, «музыкальные подарки» и мемы, быстрый прототип для настоящих музыкантов; критика — поток «бесплатных музыкантов» и засорение стримингов AI-шлаком.

Gemini 2.5 Deep Think (blog.google) 🔥 Горячее 💬 Длинная дискуссия

by meetpateltech • 01 августа 2025 г. в 11:10 • 458 points

ОригиналHN

#google#llm#machine-learning#deep-learning

Комментарии (249)

I started doing some experimentation with this new Deep Think agent, and after five prompts I reached my daily usage limit. For $250 USD/mo that’s what you’ll be getting folks.It’s just bizarrely uncompetitive with o3-pro and Grok 4 Heavy. Anecdotally (from my experience) this wa