The Principles of Diffusion Models (arxiv.org)

Эта монография представляет основные принципы, лежащие в основе диффузионных моделей, прослеживая их происхождение и показывая, как различные формулировки возникают из общих математических идей. Диффузионное моделирование начинается с определения прямого процесса, который постепенно искажает данные в шум, связывая распределение данных с простым априорным через континуум промежуточных распределений. Авторы описывают три дополняющих друг друга подхода: вариационный (как пошаговое удаление шума), основанный на скорах (изучение градиента эволюции распределения данных) и потоковый (генерация как следование плавному пути). Все эти перспективы разделяют общий каркас: зависящее от времени поле скоростей, чье течение транспортирует простой априор в данные.

Выборка сводится к решению дифференциального уравнения, эволюционирующего шум в данные по непрерывной траектории. На этой основе монография обсуждает руководство для управляемой генерации, эффективные численные решатели и модели, вдохновленные диффузией, которые изучают прямые отображения между произвольными моментами времени. Работа обеспечивает концептуальное и математически обоснованное понимание диффузионных моделей для читателей с базовыми знаниями глубокого обучения.

by Anon84 • 09 ноября 2025 г. в 16:10 • 205 points

Механизм	Параметры KV	Память KV	Качество	Примечание
MHA	h·d·d	O(hd)	высокое	baseline
MQA	d·d	O(d)	↓	быстрый
GQA	g·d·d	O(gd)	≈ MHA	компромисс
MLA	d_lat·d	O(d_lat)	≈ MHA	state-of-art

The Principles of Diffusion Models (arxiv.org)

Leaving Meta and PyTorch (soumith.ch) 🔥 Горячее 💬 Длинная дискуссия

Tongyi DeepResearch – open-source 30B MoE Model that rivals OpenAI DeepResearch (tongyi-agent.github.io) 🔥 Горячее

Helion: A high-level DSL for performant and portable ML kernels (pytorch.org)

Who invented deep residual learning? (people.idsia.ch)

Less is more: Recursive reasoning with tiny networks (alexiajm.github.io) 🔥 Горячее

How does gradient descent work? (centralflows.github.io) 🔥 Горячее

Announcing Tinker (thinkingmachines.ai)

LoRA Without Regret (thinkingmachines.ai)

We bought the whole GPU, so we're damn well going to use the whole GPU (hazyresearch.stanford.edu) 🔥 Горячее

Modular Manifolds (thinkingmachines.ai)

Bit is all we need: binary normalized neural networks (arxiv.org)

Lightweight, highly accurate line and paragraph detection (arxiv.org)

Apple Silicon GPU Support in Mojo (forum.modular.com)

Were RNNs all we needed? A GPU programming perspective (dhruvmsheth.github.io)

Towards a Physics Foundation Model (arxiv.org)

К созданию базовой модели физики

Аннотация

CorentinJ: Real-Time Voice Cloning (2021) (github.com)

SpikingBrain 7B – More efficient than classic LLMs (github.com)

The wall confronting large language models (arxiv.org)

The maths you need to start understanding LLMs (gilesthomas.com) 🔥 Горячее

From multi-head to latent attention: The evolution of attention mechanisms (vinithavn.medium.com)

Multi-Head Attention (MHA)

Multi-Query Attention (MQA)

Grouped Query Attention (GQA)

Multi-Latent Attention (MLA)

Сводная таблица

The Math Behind GANs (2020) (jaketae.github.io)

Important machine learning equations (chizkidd.github.io) 🔥 Горячее

Байес

Энтропия

KL-дивергенция

Кросс-энтропия

Линейная алгебра

Линейное преобразование

Собственные значения и векторы

SVD

Оптимизация

Градиентный спуск

Backprop

Функции потерь

MSE

Кросс-энтропия

Продвинутые темы

Диффузия

Свертка

Softmax

Attention

WiFi-3D-Fusion – Real-time 3D motion sensing with Wi-Fi (github.com)

The Annotated Transformer (2022) (nlp.seas.harvard.edu)

Beyond sensor data: Foundation models of behavioral data from wearables (arxiv.org)

How can AI ID a cat? (quantamagazine.org)

Show HN: Luminal – Open-source, search-based GPU compiler (github.com)

Основное

Возможности

Примеры

Установка

Статус

Gemma 3 270M re-implemented in pure PyTorch for local tinkering (github.com) 🔥 Горячее

Who Invented Backpropagation? (people.idsia.ch)

Tversky Neural Networks (gonzoml.substack.com)

DINOv3 (github.com)

Ключевые возможности

Установка

Быстрый старт

Лицензия

Hand-picked selection of articles on AI fundamentals/concepts (aman.ai)

GPT-OSS vs. Qwen3 and a detailed look how things evolved since GPT-2 (magazine.sebastianraschka.com) 🔥 Горячее

Google's Genie is more impressive than GPT5 (theahura.substack.com)

Qwen3-4B-Thinking-2507 (huggingface.co)

Open music foundation models for full-song generation (map-yue.github.io)

Жанры и примеры

Gemini 2.5 Deep Think (blog.google) 🔥 Горячее 💬 Длинная дискуссия