The Principles of Diffusion Models
Эта монография представляет основные принципы, лежащие в основе диффузионных моделей, прослеживая их происхождение и показывая, как различные формулировки возникают из общих математических идей. Диффузионное моделирование начинается с определения прямого процесса, который постепенно искажает данные в шум, связывая распределение данных с простым априорным через континуум промежуточных распределений. Авторы описывают три дополняющих друг друга подхода: вариационный (как пошаговое удаление шума), основанный на скорах (изучение градиента эволюции распределения данных) и потоковый (генерация как следование плавному пути). Все эти перспективы разделяют общий каркас: зависящее от времени поле скоростей, чье течение транспортирует простой априор в данные.
Выборка сводится к решению дифференциального уравнения, эволюционирующего шум в данные по непрерывной траектории. На этой основе монография обсуждает руководство для управляемой генерации, эффективные численные решатели и модели, вдохновленные диффузией, которые изучают прямые отображения между произвольными моментами времени. Работа обеспечивает концептуальное и математически обоснованное понимание диффузионных моделей для читателей с базовыми знаниями глубокого обучения.
Комментарии (20)
- Обсуждение началось с вопроса о дубликатах и правилах HN, где участники обсудили, что считается дубликатом и как обходить правило о дубликатах.
- Участники обменялись мнениями о том, что такое «брут-форс» в контексте ИИ и эволюции, а также о том, как эволюция и обучение ИИ связаны с «брут-форсом».
- Обсуждались также вопросы о том, как ИИ может быть использован для обучения и как это может повлиять на образование.
- Также обсуждались вопросы о том, как ИИ может быть использован для обучения и как это может повлиять на образование.
Leaving Meta and PyTorch 🔥 Горячее 💬 Длинная дискуссия
Сумит Чинтала объявляет о своем уходе из Meta после 11 лет работы, где он почти всю профессиональную жизнь руководил разработкой PyTorch. За почти 8 лет он превратил фреймворк из ничего в инструмент с 90%+ долей adoption в области ИИ, теперь поддерживающий эксасейборное обучение и являющийся основой для фундаментальных моделей, переопределяющих интеллект. PyTorch используется практически всеми крупными AI-компаниями и преподается в классах от MIT до сельских районов Индии.
"Я покидаю это с полным сердцем", — пишет Чинтала, объясняя, что хочет попробовать что-то небольшое, новое и некомфортное вне Meta. Он подчеркивает, что PyTorch готов к его уходу: команда во главе с Эдвардом, Суо, Албаном, Грегом, Джоном, Джо и Джаной стала самодостаточной, способна решать сложные технические и организационные проблемы и сохранит ценности проекта. "Эта группа PyTorchers добьется исключительных успехов", — уверен он, добавив, что будет продолжать след за развитием фреймворка, вероятно, даже будет оставлять баги.
Комментарии (162)
- Сообщение вызвало обсуждение о причинах ухода Soumith из Meta и о том, что он будет делать дальше; обсуждение затронуло тему открытого исходного кода, влияние PyTorch на исследовательскую среду и то, как компании вроде Meta относятся к своим сотрудникам.
Tongyi DeepResearch – open-source 30B MoE Model that rivals OpenAI DeepResearch 🔥 Горячее
Tongyi DeepResearch — первый полностью открытый веб-агент, демонстрирующий производительность на уровне DeepAI OpenAI. Модель достигает передовых результатов: 32.9 на тесте академического рассуждения Humanity's Last Exam, 43.4 на BrowseComp и 46.7 на BrowseComp-ZH в сложных задачах поиска информации, а также 75 на пользовательском бенчмарке xbench-DeepSearch, превосходя все существующие проприетарные и открытые агенты глубоких исследований. Авторы делятся полной методологией создания таких агентов, включая инновационное решение для синтеза данных на всем конвейере обучения.
В основе обучения лежит Agentic Continual Pre-training (CPT) с использованием системы AgentFounder для масштабного синтеза данных. Разработчики создают цикл данных, перегруппируя различные источники в привязанную к сущностям открытую мировую память знаний. Для сложных вопросов с высокой неопределенностью они синтезируют веб-данные через высокосвязанный граф знаний с помощью случайных обходов. Модель демонстрирует мощные возможности в режиме ReAct без инженерии промптов, а продвинутый Heavy Mode раскрывает верхний предел ее потенциала сложного рассуждения и планирования.
Комментарии (133)
- Обсуждение в основном вращается вокруг трёх тем: «Deep Research» как продукт vs. обычный поиск, практичность мелких моделей, и то, что большие модели всё ещё уступают специализированным инструментам в конкретных задачах.
- Участники обмениваются опытом, что мелкие модели (Qwen 3 4B и т.п.) уже способны обеспечить приемлемое качество при минимальных затратах, особенно если квантовать и/или запустить их на Apple Silicon.
- Обсуждается, что влияние этих моделей на рынок: будут ли они заменять крупные модели в нишевых задачах или же будут использованы как основа для дальнейшей настройки.
- Также поднимается вопрос о том, что, возможно, в будущем мы увидим взрыв специализированных моделей, обученных под конкретные задачи, и что это может быть следующим шагом после исчерпания выгод от предобучения.
Helion: A high-level DSL for performant and portable ML kernels
Helion — это высокоуровневый язык для создания производительных и переносимых ML-ядер, разработанный командой PyTorch в Meta. Он разрешает конфликт между производительностью и удобством, компилируя Python-встроенный DSL в автоматически настраиваемый код Triton. Helion создает новый уровень абстракции, сочетающий простоту PyTorch с производительностью низкоуровневых языков, автоматизируя рутинные задачи вроде индексации тензоров и управления памятью. Это позволяет разработчикам сосредоточиться на алгоритмической логике, а не на аппаратно-специфичных деталях.
Текущие языки вынуждают выбирать между контролем и производительностью: CUDA дает максимум контроля, но требует значительных усилий; Triton — шаг вперед, но все еще требует ручной настройки; PyTorch прост, но ограничен в детальном контроле. Программная модель Helion, описываемая как "PyTorch с тайлами", минимизирует шаблонный код и использует знания разработчиков в PyTorch. Типичное ядро Helion состоит из двух взаимодополняющих частей, что упрощает создание правильных и эффективных ядер.
Комментарии (47)
- Helion позиционируется как более высокоуровневая альтернатива Triton, упрощая написание кода за счет автоматического автотюнинга, в отличие от других DSL (Gluon, CuTe), которые предлагают больше контроля на низком уровне.
- Основные проблемы включают длительный автотюнинг (до 10+ минут), отсутствие полноценной поддержки Python-отладки (автодополнение, точки останова) и сложность выбора между множеством технологий (Triton, Gluon, JAX Pallas и др.).
- Несмотря на рост высокоуровневых фреймворков, низкоуровневые оптимизации остаются критичными для новых архитектур моделей (например, FlashAttention, MXFP4) и аппаратных платформ (NVIDIA, AMD).
- Споры о релевантности CUDA: мнения расходятся от его "устаревания" до сохранения доминирующей роли в экосистеме на годы вперед из-за зрелости инструментов и сообщества.
- Пользователи отмечают, что Helion может расширить круг разработчиков, способных писать эффективные ядра, но сомневаются в его преимуществах перед Triton/Gluon без явного выигрыша в производительности или простоте.
Who invented deep residual learning?
Глубокое остаточное обучение с остаточными соединениями было изобретено не в 2015 году с появлением ResNet, а имеет долгую историю, уходящую корнями в 1991 год. Sepp Hochреитер в своей дипломной работе под руководством Jürgen Schmidhuber представил остаточные соединения для рекуррентных нейронных сетей, чтобы решить фундаментальную проблему исчезающих градиентов. Эти соединения с весом 1.0 обеспечивают постоянный поток ошибок в глубоких сетях, позволяя градиентам распространяться на миллионы шагов без затухания.
Эволюция продолжилась с LSTM в 1997 году, ставшей самой цитируемой работой по ИИ 20 века, где остаточные соединения назывались "constant error carrousels". В 1999 году появились управляемые остаточные соединения с forget gates, изначально открытыми (вес 1.0). К 2005 году LSTM была "развернута" из рекуррентной в feedforward архитектуру, что в 2015 году привело к появлению Highway Net и затем ResNet - по сути открытого управляемого Highway Net или развернутого 1997 LSTM.
Комментарии (33)
- Стороны обсуждают, кто именно «изобрёл» residual-соединения, и кто должен получить признание за идею, которая в действительности развивалась постепенно и коллективно.
- Обсуждается, что в ML-исследованиях редко бывает, что идея принадлежит одному человеку, и что «изобретение» часто является результатом множества вкладов, которые со временем приписываются одному человеку.
- Участники обмениваются мнениями о том, что важнее — первоначальная идея или же ее популяризация и демонстрация ее важности.
- Также затрагивается вопрос о том, что если идея не была оценена по достоинству в свое время, то это может быть выгодно только тому, кто ее позже популяризирует.
Less is more: Recursive reasoning with tiny networks 🔥 Горячее
Предложена новая архитектура Tiny Recursive Model (TRM), которая использует рекурсивные вызовы одной маленькой сети всего с двумя слоями и 7 миллионами параметров для решения сложных логических задач. Она превосходит большие языковые модели, достигая 45% точности на тестах ARC-AGI-1 и 8% на ARC-AGI-2, что выше результатов многих LLM, включая Deepseek R1 и Gemini 2.5 Pro.
Метод демонстрирует, что рекурсивное мышление с минимальными вычислительными ресурсами может эффективно справляться с задачами, требующими абстрактного рассуждения, такими как судоку и лабиринты. Это открывает перспективы для создания более эффективных ИИ-систем, способных обобщать знания на основе небольшого количества примеров.
Комментарии (54)
- Предложена новая архитектура HRM, использующая две рекуррентные нейросети с разной частотой
- Модель вдохновлена биологическими принципами иерархического мышления
- Превосходит большие языковые модели (LLM) в решении сложных головоломок (Судоку, Лабиринты, ARC-AGI)
- Обучена на небольших моделях (27M параметров) и малом количестве данных (~1000 примеров)
- Перспективна для решения сложных задач с малыми вычислительными ресурсами
How does gradient descent work? 🔥 Горячее
Градиентный спуск в глубоком обучении работает вопреки классическим представлениям. Традиционный анализ предсказывает, что алгоритм должен оставаться в «стабильной области», где острота функции потерь (максимальное собственное значение гессиана) не превышает порога 2/η. Если острота становится выше, градиентный спуск на квадратичной аппроксимации начинает расходиться.
Однако на практике при обучении нейросетей острота часто растёт и достигает этого порога, но градиентный спуск не расходится, а продолжает сходиться. Это происходит потому, что реальная динамика оптимизации сложнее локальной квадратичной аппроксимации. Алгоритм стабилизируется за счёт нелинейных эффектов и взаимодействия параметров, что позволяет ему эффективно работать даже вне теоретически стабильной области.
Комментарии (23)
- Обсуждение посвящено концепции "центрального потока" (central flow) — теоретической модели, объясняющей динамику градиентного спуска в глубоком обучении через проекцию градиента потерь на градиент "остроты" (sharpness).
- Участники отмечают, что модель предсказывает поведение функции потерь и объясняет, как нестабильность и осцилляции используются для самоисправления и обучения, а не просто избегаются.
- Поднимается вопрос о практической применимости модели: является ли она лишь теоретическим инструментом для понимания или может быть использована для ускорения сходимости на практике, например, через скользящее среднее.
- Обсуждается ограничение модели — её детерминистическая природа и необходимость проверки её работы со стохастическими градиентами (SGD), используемыми в реальных задачах.
- Упоминается, что авторы статьи видят центральный поток как инструмент для анализа, а не как готовый практический метод оптимизации.
Announcing Tinker
Tinker — это гибкий API для тонкой настройки языковых моделей, который позволяет исследователям и разработчикам экспериментировать с алгоритмами и данными, абстрагируясь от сложностей распределённого обучения. Сервис поддерживает модели разных масштабов, включая крупные смешанные экспертные архитектуры вроде Qwen-235B-A22B, и переключение между ними сводится к изменению одной строки в коде.
Tinker работает как управляемый сервис на внутренней инфраструктуре, автоматизируя планирование, распределение ресурсов и восстановление после сбоев, а для снижения затрат использует LoRA. API предоставляет низкоуровневые примитивы вроде forward_backward и sample, а открытая библиотека Tinker Cookbook содержит готовые реализации современных методов пост-обучения. Уже использовался группами из Принстона, Стэнфорда, Беркли и Redwood Research для задач от доказательства теорем до RL-настройки моделей.
Комментарии (64)
- Критика условий обслуживания (TOS) за предоставление компании неограниченного доступа к данным пользователей
- Обсуждение технических преимуществ Tinker как единого фреймворка для пост-обучения моделей с управлением сложностью
- Вопросы о уникальном торговом предложении (USP) и практической пользе тонкой настройки моделей по сравнению с использованием флагманских продуктов
- Скептицизм относительно бизнес-модели и целесообразности запуска инфраструктурного продукта стартапом с высокой оценкой
- Дебаты о названии компании и его возможных оскорбительных коннотациях в англоязычных странах
LoRA Without Regret
LoRA позволяет эффективно дообучать большие языковые модели, обновляя лишь малую часть параметров через низкоранговые матрицы, что экономит вычислительные ресурсы и память. Эксперименты показывают, что на небольших и средних наборах данных для обучения с учителем и reinforcement learning LoRA достигает той же производительности, что и полное дообучение, при условии корректной настройки.
Ключевые факторы успеха LoRA включают применение ко всем слоям модели (включая MLP и MoE), а не только к attention-слоям, и осторожный подбор размера батча — слишком большие батчи могут ухудшить результаты. Однако при превышении ёмкости адаптера данными или в сценариях, напоминающих предобучение, LoRA проигрывает полному дообучению.
Комментарии (48)
- Многие пользователи изначально путают аббревиатуру LoRA (Low-Rank Adaptation) с технологией беспроводной связи LoRa (Long Range).
- Обсуждается научная статья, ставящая под сомнение эквивалентность эффективности LoRA и полного тонкого обучения (Full Fine-Tuning), и ведется спор о доказательности этого утверждения.
- Поднимается вопрос о практических руководствах по применению LoRA и рекомендациях по оценке необходимого количества параметров для модели.
- Упоминается метод прогрессивного слияния матриц LoRA (progressive merging) как потенциально более эффективный, но не рассмотренный в обсуждаемом материале.
- Затрагивается тема применения LoRA в обучении с подкреплением (RL) и сложности оценки количества информации в данных.
We bought the whole GPU, so we're damn well going to use the whole GPU 🔥 Горячее
Исследователи из Hazy Research разработали высокопроизводительный мегаядро для тензорно-параллельного вывода Llama-70B на H100, которое агрессивно перекрывает вычисления, работу с памятью и коммуникацию между GPU. Это позволяет одновременно задействовать различные аппаратные ресурсы: тензорные ядра, модули для нетензорных операций, пропускную способность HBM и NVLink. В интеграции с движком Tokasaurus их решение превосходит SGLang на >22% по общей пропускной способности при обработке 65 536 промптов из ShareGPT.
Ключевая идея — использование интерпретатора инструкций, работающего на каждом SM, который позволяет гибко планировать выполнение разнородных операций. Это обеспечивает перекрытие на нескольких уровнях: внутри SM (память и вычисления), между SM (матричные умножения и нормирование) и между GPU (скрытие задержек связи за счёт специальных потоков). Особенно отмечается простота реализации сложных трансформаций данных между GPU прямо после attention-слоя, что трудно выразить стандартными средствами коммуникации.
Комментарии (94)
- Обсуждение эффективности использования GPU: использование всех блоков (NVDEC, NVJPG, RT и тензорные ядра) для декомпрессии весов и вычислений, аналогии с оптимизацией под консоли.
- Проблемы инструментов и драйверов: отставание языков, библиотек и драйверов от возможностей современного железа, сложности компиляторов для гетерогенных систем.
- Виртуализация и разделение ресурсов GPU: обсуждение MIG, MPS для многопользовательского использования, риски утечки данных и ограничения этих технологий.
- Сравнение с другими платформами: упоминание Apple Metal и открытости драйверов, потенциал использования GPU для аудиообработки и сигналов.
- Критика и ирония: сравнение стиля статьи с "Трансгрессия границ", комментарии о "коде, который не предназначен для поддержки" и неожиданно доступных оптимизациях в крупных лабораториях.
Modular Manifolds
Нормализация тензоров в больших нейросетях — ключевой аспект их стабильного обучения. Она предотвращает проблемы численной нестабильности, такие как переполнение или исчезновение градиентов, и упрощает проектирование алгоритмов, обеспечивая предсказуемость размеров весов, активаций и обновлений. Хотя нормализация активаций (например, layer norm) и градиентов уже стала стандартом, нормализация весовых матриц применяется реже, несмотря на потенциальные преимущества.
Ограничение норм весов помогает контролировать относительный размер обновлений, избегать взрыва норм и улучшать condition number матриц, делая их поведение более предсказуемым. Это позволяет сосредоточить усилия по настройке гиперпараметров на наиболее значимых тензорах. Практические реализации, такие как в EDM2, показывают, что такие методы могут улучшать устойчивость и эффективность обучения больших моделей.
Комментарии (53)
- Обсуждение возможности ограничения весов нейронных сетей на многообразиях и переосмысления оптимизации с такими ограничениями.
- Вопросы о новизне подхода, учитывая существующие работы и библиотеки (Pymanopt) по оптимизации на многообразиях.
- Критика и сомнения в представленных эмпирических результатах (низкая точность на CIFAR-10, малый масштаб модели).
- Обсуждение формата публикации (блогпост vs. научная статья) и мотивов авторов.
- Замечания о дизайне и UX сайта с блогпостом (положительные и отрицательные).
Bit is all we need: binary normalized neural networks
Новая архитектура бинарных нормализованных нейросетей (BNNN) показывает, что для эффективного представления весов достаточно всего одного бита. Вместо традиционных 32-битных значений BNNN использует бинарные веса (±1), что резко сокращает требования к памяти и вычислительной сложности. Это особенно важно для развёртывания моделей на устройствах с ограниченными ресурсами, таких как микроконтроллеры или мобильные телефоны.
Эксперименты подтверждают, что BNNN сохраняет конкурентную точность на задачах классификации изображений, несмотря на экстремальное сжатие. Метод включает нормализацию активаций, что компенсирует потерю информации от бинаризации. Практический вывод: бинарные представления могут быть достаточны для многих приложений, открывая путь к более энергоэффективному ИИ.
Комментарии (35)
- Критика новизны подхода и ссылки на более ранние исследования в области квантованных сетей
- Обсуждение недостатков метода: значительное увеличение времени обучения и отсутствие квантования активаций
- Указание на то, что метод предназначен в основном для инференса, а не для обучения
- Сомнения в корректности выводов работы и её названия, указывающие на игнорирование предыдущих исследований
- Обсуждение технических деталей, таких как хранение параметров в двух формах и возможность более низкой битности
Lightweight, highly accurate line and paragraph detection
Новая модель на основе графовых сверточных сетей (GCN) решает задачу одновременного обнаружения строк и абзацев в документах. Вместо традиционных методов, которые обрабатывают эти элементы отдельно, подход объединяет их в единую структуру, где узлы графа представляют текстовые блоки, а связи отражают пространственные и семантические отношения. Это позволяет точнее определять логическую структуру документа, учитывая контекст и взаимодействие между строками и абзацами.
Модель демонстрирует высокую точность на стандартных наборах данных, превосходя предыдущие методы как в сегментации строк, так и в группировке их в абзацы. Ключевое преимущество — способность обрабатывать сложные макеты с перекрывающимися или разнородными блоками текста. Практический вывод: такой подход может значительно улучшить автоматическое извлечение информации из сканированных документов и PDF, сокращая потребность в ручной разметке.
Комментарии (23)
- Обсуждаются сложности автоматического извлечения структурированного текста (абзацы, колонки, таблицы) из PDF, особенно с рукописными документами и изображениями.
- Упоминается, что подобная технология (анализ кластеров для группировки слов) уже давно используется в iOS для функции масштабирования PDF по тапу.
- Участники делятся проблемами и неудачным опытом с существующими инструментами для преобразования PDF в текст.
- Поднимается вопрос о необходимости улучшения читаемого режима в браузерах и более надежных решений для классификации страниц с таблицами.
- Предлагаются альтернативные решения с использованием ИИ (Gemini для OCR) и отмечается ироничность того, что сама научная работа об улучшении PDF доступна в формате PDF.
Apple Silicon GPU Support in Mojo
Mojo теперь поддерживает программирование GPU на Apple Silicon, что делает разработку GPU-ускоренных алгоритмов и AI-моделей доступнее для владельцев современных Mac. Для работы требуется macOS 15, Xcode 16 и чипы M1–M4. Пока функциональность ограничена: не работают сложные примеры вроде матричного умножения, AI-модели, PyTorch-интеграция и некоторые аппаратные возможности. Планируется доработка поддержки atomic operations, bfloat16 и других функций.
Технически код компилируется в AIR bitcode через LLVM IR, затем в .metallib через Metal-cpp API, скрыто от разработчика. Существующий код для NVIDIA/AMD GPU должен работать, но для максимальной производительности потребуются оптимизации под архитектуру Apple. Документация и открытый вклад ожидаются позже, когда базовая инфраструктура будет стабилизирована.
Комментарии (40)
- Обсуждение касается языка Mojo и его потенциала в области глубокого обучения и GPU-программирования, с акцентом на его совместимость с экосистемой Python и производительность.
- Участники спорят о нишевости написания кастомных CUDA/Triton ядер, отмечая, что это сложно и этим занимаются немногие, но Mojo может сделать этот процесс более доступным.
- Высказываются как скептические мнения о будущем Mojo (называя его "проектом тщеславия"), так и оптимистичные, видящие в нём важный прорыв и альтернативу существующим инструментам.
- Поднимаются вопросы о бизнес-модели Mojo (лицензирование) и её потенциальном влиянии на открытость экосистемы, что может отпугнуть часть разработчиков.
- Отмечается, что синтаксис Mojo, основанный на Python, является его сильной стороной для привлечения аудитории data scientists, но сама языковая модель и runtime отличаются.
Were RNNs all we needed? A GPU programming perspective
Упрощённые версии GRU и LSTM (minGRU и minLSTM) позволяют заменить последовательные вычисления на параллельные, устраняя зависимость скрытого состояния от предыдущего шага. Это достигается за счёт переопределения гейтов так, чтобы они зависели только от текущего входа, что превращает рекуррентное обновление в линейную форму, разрешимую алгоритмом параллельного сканирования (scan). Такой подход сокращает сложность с O(T) до O(log T), что критично для ускорения на GPU.
Реализация на CUDA демонстрирует значительное ускорение: для последовательностей длиной 65 536 шагов время выполнения сокращается с ~13 секунд на CPU до ~5,3 секунд на GPU для GRU и с ~13 до ~6,7 секунд для LSTM. На коротких последовательностях (T < 2048) преимущество менее выражено из-за накладных расходов на распараллеливание, но с ростом длины масштабирование становится явным. Это подтверждает, что даже минимальные изменения в архитектуре RNN могут радикально улучшить их производительность на параллельных вычислениях.
Комментарии (23)
- Обсуждаются архитектурные ограничения классических RNN/LSTM, в частности их последовательная природа, препятствующая эффективному распараллеливанию на GPU.
- Представлены упрощённые модели (minGRU, minLSTM) и альтернативные архитектуры (например, RWKV), которые пытаются устранить эти ограничения и конкурировать с трансформерами.
- Поднимается вопрос о возможности параллельного обучения RNN на разных независимых текстах (книгах) и обсуждаются сложности синхронизации градиентов.
- Уточняется, что мозг человека вряд ли является RNN, и выдвигаются альтернативные гипотезы о его работе, например, как модели поиска устойчивого состояния (equilibrium model).
- Обсуждается исторический контекст: почему трансформеры, несмотря на потенциальную эффективность RNN, стали доминировать благодаря лучшей параллелизации обучения.
Towards a Physics Foundation Model
К созданию базовой модели физики
Флориан Виснер, Маттиас Весслинг, Стивен Бэк
Аннотация
Базовые модели произвели революцию в обработке естественного языка благодаря парадигме «обучил один раз — применяй где угодно», когда единая предобученная модель адаптируется к бесчисленным задачам без переобучения. Доступ к базовой модели физики (PFM) стал бы преобразующим — демократизировал бы доступ к высокоточной симуляции, ускорил научные открытия и устранил необходимость в разработке специализированных решателей.
Мы представляем General Physics Transformer (GPhyT), обученный на 1,8 ТБ разнообразных данных симуляции, который демонстрирует достижимость возможностей базовой модели для физики. Наше ключевое понимание заключается в том, что трансформеры могут научиться выводить управляющую динамику из контекста, позволяя одной модели симулировать взаимодействия жидкость-твердое тело, ударные волны, тепловую конвекцию и многофазную динамику без знания исходных уравнений.
GPhyT достигает трёх критических прорывов:
- Превосходная производительность в нескольких областях физики
- Обобщение на полностью новые физические системы через обучение в контексте
- Стабильные долгосрочные прогнозы через 50-шаговые прогоны
Эта работа открывает путь к универсальной PFM, которая могла бы преобразовать вычислительную науку и технику.
Ключевые слова: Машинное обучение, Искусственный интеллект, Базовые модели, Физическое моделирование
Комментарии (17)
- Представлена модель GPhyT, способная обучаться и предсказывать динамику разнообразных физических систем без явных физических особенностей.
- Основное отличие от PINNs и Neural Operators — способность модели понимать множественные физические системы, а не узкоспециализированные.
- Ключевой проблемой признается нехватка данных, особенно для 3D и реальных задач.
- Поднимается вопрос о сохранении моделью фундаментальных законов сохранения (масса, энергия, импульс), что в текущей версии не реализовано.
- Авторы работают над включением законов сохранения в следующей версии модели, отмечая сложность этой задачи для множественных систем.
- Обсуждается возможность применения подобных моделей в электромагнетизме и других сложных физических областях.
- Высказываются сомнения в проверке физической правдоподобности моделей, заменяющих численные решатели, и сохранении ими инвариантов.
CorentinJ: Real-Time Voice Cloning (2021)
Real-Time-Voice-Cloning
Клонирование голоса за 5 секунд и синтез любой речи онлайн.
- Архитектура: encoder → synthesizer → vocoder.
- Датасет: 1–2 минуты чистой речи на диктофон.
- GPU: ≥6 ГБ VRAM, CPU тоже работает.
- Установка: клонируй репо, поставь зависимости, скачай веса.
- GUI: запусти
demo_toolbox.py, выбери wav, вводь текст. - API:
python demo_cli.py <wav> "<текст>".
Комментарии (20)
- Модель VibeVoice от Microsoft, умеющая клонировать голоса, удалили с GitHub, несмотря на MIT-лицензию.
- Причина: её стали использовать «не по назначению».
- Пользователи отмечают: технология уже «вышла из бутылки» с 2021 года и распространяется opensource.
- Обсуждаются простые способы самостоятельно воспроизвести «голосовые эмбеддинги» без официальной модели.
- Вопрос: способны ли системы Voice ID защититься от подделки ИИ? Ответов пока нет.
SpikingBrain 7B – More efficient than classic LLMs
SpikingBrain-7B — 7-миллиардный языковой модуль, работающий на сетях с импульсными нейронами.
- Архитектура: LLaMA-2, обучен методом «Spike-LLM» (преобразование весов + тонкая настройка).
- Преимущества: 10× меньше энергии vs GPU, 4-битные веса, 80 ГБ → 8 ГБ ОЗУ.
- Метрики: C-Eval 54 %, MMLU 48 %, 1.3× быстрее аналогов на CPU.
- Код и веса: открыты, PyTorch, 1 строка для запуска.
Комментарии (40)
- Критики счатют, что «spайкинг» сведён к 1-битной квантизации и разрежённым матрицам, а «био-вдохновение» — маркетинг.
- На GPU всё равно выполняется один статический forward, без асинхронных событий; настоящих SNN-чипов нет.
- Модель уступает свежим Qwen 2.5 и Llama 3.1, при этом сравнения ведутся с 9–13-месячными baseline.
- Авторы используют китайские MetaX GPU вместо NVIDIA, что вызвало больше удивления, чем сама архитектура.
- Сообщество скептически настроено: 30 лет «нейроморфных» обещаний пока не дали практического прорыва.
The wall confronting large language models
Основная идея
Авторы утверждают, что современные LLM уже близки к «стене» роста качества: дальнейшее увеличение моделей и данных даёт лишь логарифмический прирост, а затраты растут экспоненциально.
Причины стены
- Исчерпаемость данных: высококачественный текст в интернете ограничен; синтетические данные быстро насыщают.
- Сложность задач: после решения «лёгких» 90 % остаются «трудные» 10 %, где ошибки почти не коррелируют с размером модели.
- Экономика: чтобы снизить ошибку в 2 раза, нужно в 10–100× больше ресурсов.
Эксперименты
На MMLU, GSM8K, HumanEval и BIG-Bench наблюдается выравнивание кривых качества даже при масштабировании на порядки.
Что делать
- Переход к специализированным моделям и инструментам (код-интерпретаторы, поиск).
- Агентские схемы, где LLM вызывает API и внешние системы.
- Новые архитектуры (MoE, RAG, RL) и синтетические данные нового типа (симуляции, мультимодальные сцены).
Вывод
Чистое масштабирование скоро исчерпается; прорыв потребует перехода от «больших» к «умным» системам.
Комментарии (145)
- Обсуждение крутится вокруг того, можно ли свести понимание и логическое рассуждение к вероятностным моделям вроде LLM.
- Часть участников считает, что формальное равенство с цепями Маркова или LLM ничего не даёт и упускает ключевые вещи — например, backtracking и символьное мышление.
- Другие отвечают, что трансформеры с chain-of-thought уже теоретически могут решать всё в классе P, а агенты с внешними инструментами уже делают backtracking на практике.
- Критика статьи: авторы-физики пишут запутанно, примеров нет, фокус на ядерных реакторах и численных методах выглядит неуместным.
- Сторонники «горького урока» указывают, что дальнейшее увеличение моделей и данных даст больше, чем попытки встроить строгую символику.
The maths you need to start understanding LLMs 🔥 Горячее
- Векторы и матрицы: LLM всё превращают в вектора; главное — скалярное произведение и умножение матриц.
- Softmax: превращает логиты в вероятности; температура регулирует «уверенность».
- Градиент и производная: показывают, как чуть изменить вес, чтобы ошибка уменьшилась.
- Цепное правило: позволяет распространить ошибку через слои; сердце backprop.
- Эмбеддинги: строки → векторы; чем ближе векторы, тем похожее значение.
- Attention: Q·K^T выделяет релевантные токены; V несёт смысл; маска прячет будущее.
- MLP в трансформере: два линейных слоя с ReLU; увеличивает выразительность.
- LayerNorm: стабилизирует распределение после каждого подслоя.
- Позиционное кодирование: добавляет «адрес» токену, иначе порядок теряется.
- Лосс (cross-entropy): средняя «удивлённость»; оптимизатор (Adam) крутит веса.
Дальше — только масштаб: больше слоёв, голов, данных и видеокарт.
Комментарии (106)
- Физики и математики вспомнили, что знание тензорного исчисления, линалгебры и энтропии пригодилось для понимания backprop и LLM.
- Практика: «смотреть» Karpathy недостаточно — нужно кодить за ним; его курс даёт базы и уверенность копать дальше.
- Книга «Build a Large Language Model (from Scratch)» идёт шаг-за-шагом, но объясняет только вычисления, а не «почему это вообще работает»; explainability всё ещё исследуется.
- Путаница: эмбеддинги ≠ вся модель; они лишь вход для трансформера, внутри которого 1,8 трлн параметров и «чёрный ящик».
- LLM — логит-генераторы с неизбежной неопределённостью; цепочки моделей накапливают ошибку и быстро «ломаются» без человека-оркестратора.
- Для 99 % разработчиков хватает линалгебры, softmax, градиентов и PyTorch; остальное — инженерия данных, трюки и эксперименты.
From multi-head to latent attention: The evolution of attention mechanisms
Внимание в авто-регрессивных моделях позволяет фокусироваться на релевантных токенах контекста. Например, в «The animal didn’t cross the street because it was too tired» механизм связывает «it» с «animal», а не «street».
Как работает внимание
- Query (Q) – вектор текущего токена.
- Key (K) – векторы контекста для сравнения.
- Value (V) – фактические данные контекста.
- Attention scores – веса важности, полученные из Q и K.
- KV-кэш – повторное использование уже вычисленных K и V для ускорения декодирования.
Multi-Head Attention (MHA)
Идея: h параллельных «голов» учат разные аспекты зависимостей.
Плюсы: высокая точность.
Минусы: O(h·d²) параметров и вычислений; рост KV-кэша.
Multi-Query Attention (MQA)
Идея: одна K и V на все головы.
Плюсы: в 8–16× меньше KV-памяти, быстрее.
Минусы: качество падает.
Grouped Query Attention (GQA)
Компромисс: g групп K/V (1 ≤ g ≤ h).
Плюсы: баланс между MHA и MQA.
Минусы: всё ещё линейный рост памяти при больших g.
Multi-Latent Attention (MLA)
Идея: сжимаем K и V в небольшой латентный вектор c (dim ≪ d), из которого потом «разворачиваем» нужные K, V.
Плюсы:
- KV-память не зависит от h и d;
- качество как у MHA;
- применяется в DeepSeek-V2.
Минусы: дополнительные матрицы проекции, но выгода при больших моделях перевешивает.
Сводная таблица
| Механизм | Параметры KV | Память KV | Качество | Примечание |
|---|---|---|---|---|
| MHA | h·d·d | O(hd) | высокое | baseline |
| MQA | d·d | O(d) | ↓ | быстрый |
| GQA | g·d·d | O(gd) | ≈ MHA | компромисс |
| MLA | d_lat·d | O(d_lat) | ≈ MHA | state-of-art |
Вывод
Эволюция от MHA к MLA – путь к снижению памяти и вычислений без потери качества. MLA через латентные представления достигает эффективности MQA и точности MHA, задавая новый стандарт для больших языковых моделей.
Комментарии (38)
- Название «Attention Is All You Need» выглядело лёгким и цепляющим, но авторы не предвидели гипер-масштабного влияния; целью было лишь улучшить машинный перевод без рекуррентных блоков.
- Некоторые считают, что броское имя помогло вирусному распространению работы, а в DL-сообществе меметические названия вообще норма (YOLO, ViT и др.).
- Участники спорят, используют ли «фронтирные» модели описанные в статье приёмы: открытые варианты вроде Grok-2 всё ещё опираются на стандартные MHA + MoE, а основной прогресс идёт за счёт методов обучения, а не архитектуры.
- Для чтения платных статей без регистрации советуют freedium.cfd, отключение JS или закрытие баннера-крестиком.
The Math Behind GANs (2020)
GAN: математика в двух словах
- Модели: генератор
G(z)и дискриминаторD(x)играют в минимакс-игру. - Обозначения:
x– реальные данные,z– скрытый вектор,D(x)– вероятность «реальности». - Функции ошибок
- Дискриминатор:
L_D = –[log D(x) + log(1 – D(G(z)))](минимизирует). - Генератор:
L_G = –log D(G(z))(хочетD(G(z)) ≈ 1).
- Дискриминатор:
- Оптимизация
- Фиксируем
G, обучаемD, максимизируяlog D(x) + log(1 – D(G(z))). - Фиксируем
D, обучаемG, минимизируяlog(1 – D(G(z)))(или максимизируяlog D(G(z))– стабильнее).
- Фиксируем
- Итог: игра
min_G max_D [log D(x) + log(1 – D(G(z)))]сводится к минимизации расстояния JS между реальным и сгенерированным распределениями.
Комментарии (26)
- Для многоклассовых задач GAN лучше подавать классы как side-information, а не встраивать в основную цель.
- GAN «древние», но всё ещё живы: обучают VAE/VQ-VAE для латентных пространств diffusion-моделей и добавляют adversarial-loss в декодеры.
- Сами архитектуры меняются, а adversarial-training как метод остаётся релевантным, хотя diffusion сейчас предпочтительнее из-за стабильности.
- Главная проблема GAN — нестабильность и mode collapse, поэтому их чаще используют как небольшую регуляризацию, а не для полной генерации.
- Знание GAN всё ещё полезно для вдохновения и понимания истории нейросетей, даже если вы не собираетесь их тренировать с нуля.
Important machine learning equations 🔥 Горячее
Байес
$$P(A|B)=\frac{P(B|A)P(A)}{P(B)}$$ Обновляем вероятность гипотезы при новых данных.
def bayes(p_d, p_t_d, p_t_nd):
p_t = p_t_d*p_d + p_t_nd*(1-p_d)
return p_t_d*p_d / p_t
Энтропия
$$H(X)=-\sum_x P(x)\log P(x)$$ Измеряем неопределённость распределения.
import numpy as np
H = lambda p: -np.sum(p*np.log(p, where=p>0))
KL-дивергенция
$$D_{\text{KL}}(P|Q)=\sum_x P(x)\log\frac{P(x)}{Q(x)}$$ Сколько бит «лишних» нужно, если вместо истинного распределения $P$ использовать $Q$.
Кросс-энтропия
$$H(P,Q)=-\sum_x P(x)\log Q(x)$$ Используется как лосс в классификации.
Линейная алгебра
Линейное преобразование
$$\mathbf{y}=A\mathbf{x}$$ Матрица $A$ переводит вектор $\mathbf{x}$ в пространство признаков.
Собственные значения и векторы
$$A\mathbf{v}=\lambda\mathbf{v}$$ Направления, вдоль которых преобразование лишь растягивает/сжимает.
SVD
$$A=U\Sigma V^\top$$ Разложение на ортогональные и диагональные матрицы; основа PCA и рекомендательных систем.
Оптимизация
Градиентный спуск
$$\theta_{t+1}=\theta_t-\eta\nabla_\theta J(\theta)$$ Шагаем против градиента, чтобы минимизировать функцию потерь $J$.
Backprop
$$\frac{\partial L}{\partial W^{(l)}}=\delta^{(l)}(a^{(l-1)})^\top$$ Цепное правило для обучения нейросетей.
Функции потерь
MSE
$$\text{MSE}=\frac{1}{n}\sum_i (y_i-\hat y_i)^2$$ Классика регрессии.
Кросс-энтропия
$$L=-\sum_i y_i\log \hat y_i$$ Стандарт для классификации.
Продвинутые темы
Диффузия
$$q(x_t|x_{t-1})=\mathcal N(x_t;\sqrt{1-\beta_t}x_{t-1},\beta_t I)$$ Постепенное добавление шума и обратное восстановление.
Свертка
$$(f*g)[n]=\sum_m f[m]g[n-m]$$ Извлечение локальных паттернов в CNN.
Softmax
$$\text{softmax}(z_i)=\frac{e^{z_i}}{\sum_j e^{z_j}}$$ Превращает логиты в вероятности.
Attention
$$\text{Attention}(Q,K,V)=\text{softmax}\left(\frac{QK^\top}{\sqrt d_k}\right)V$$ Взвешенная сумма значений по релевантности запроса и ключей.
Краткий конспект ключевых уравнений ML: от вероятностей до трансформеров, с кодом и интуицией.
Комментарии (26)
- @dkislyuk и @morleytj критикуют формат «списка формул» без связного объяснения и советуют читать оригинальную теорию Шеннона.
- @cl3misch нашёл баг в коде энтропии из-за неинициализированных значений и несоответствие формулы кросс-энтропии.
- @dawnofdusk и @cgadski хвалят полноту материала как удобную шпаргалку для быстрого погружения.
- @bee_rider и @calebkaiser обсуждают применение сингулярных чисел и собственных значений в LLM и LoRA.
WiFi-3D-Fusion – Real-time 3D motion sensing with Wi-Fi
WiFi-3D-Fusion — open-source проект, который по CSI-сигналам Wi-Fi и глубокому обучению восстанавливает 3D-позы человека.
Сочетает беспроводное зондирование с компьютерным зрением для нового уровня пространственного восприятия.
Комментарии (25)
- Подозрения в «искусственности» проекта: README и диаграммы, похоже, полностью сгенерированы ИИ, что вызывает вопросы к подлинности.
- Репозиторий перегружен значками и счётчиками, что многие воспринимают как маркер «AI-обёртки» над чужими инструментами.
- Технология Wi-Fi-сенсинга реальна: UofT показала похожий прототип в 2018-19 гг., а новая работа представлена на CVPR 2024.
- Пользователей интересует практическое разрешение (кошка vs. сумка), необходимость пары «передатчик-приёмник» и возможность заменить LiDAR в роботах.
- Плюсы: дешёвое «видение» без камер, интеграция в Home Assistant. Минусы: потенциальные угрозы приватности и ощущение «сырого» прототипа.
The Annotated Transformer (2022)
Суть статьи в двух словах
- Transformer — архитектура нейросети, где всё держится на механизме внимания; свёртки и рекуррентные слои не нужны.
- Ключевые компоненты:
- Multi-Head Attention — параллельные «головы» вычисляют взвешенные суммы входов.
- Positional Encoding — добавляет информацию о порядке токенов.
- Feed-Forward — простые линейные слои между блоками внимания.
- Тренировка:
- Оптимизатор Adam с тёплым стартом и дропаутом.
- Label Smoothing (коэффициент 0.1) уменьшает переобучение.
- Результаты:
- На WMT 2014 английский↔немецкий BLEU 28.4 (новый SOTA).
- Обучение на 8 GPU занимает 12 часов до сходимости.
- Вывод: «Внимание — всё, что нужно»; модель легко масштабируется и обучается параллельно.
Комментарии (11)
- @srush напомнил, что статья была переписана командой авторов, и поделился ссылками на свои материалы по CUDA и тензорам.
- Участники хвалят качество объяснения attention и детализацию визуализации.
- @ActorNightly спорит, что термины Key/Query/Value не несут особого смысла, так как матрицы произвольны.
- @gchadwick возражает, подчёркивая разные роли K, Q, V при декодировании.
- @roadside_picnic предлагает смотреть на attention как на kernel smoothing, что делает его интуитивнее.
Beyond sensor data: Foundation models of behavioral data from wearables
Ключевая идея:
Используем не сырые показания сенсоров, а «поведенческие» признаки (шаги, сон, ЧСС, калории и т. д.), извлечённые из носимых устройств. На их основе обучаем фундаментальную модель (FM) с архитектурой BERT-подобного трансформера.
Данные:
- 1,2 млн человек, 1,3 млрд дней наблюдений (Fitbit).
- 7 категорий признаков: активность, сон, ЧСС, калории, BMI, возраст, пол.
- Представление временных рядов: токенизируем каждый день (max 512 токенов), добавляем «класс» токен для задачи предсказания.
Обучение:
- 110M-параметровый трансформер, MLM + задача предсказывать следующий день.
- 16 GPU, 3 дня.
Результаты:
- На 15 задачах здоровья FM превосходит CNN/RNN/LSTM/GBDT на 6–18 % AUROC.
- Особенно сильно улучшение при малых выборках (до +25 %).
- Zero-shot перенос на NIH All of Us (≈ 12 тыс. человек) без дообучения сохраняет 90 % качества.
Абляции:
- Удаление любой группы признаков падает AUROC на 1–3 %.
- Уменьшение модели до 35 M параметров теряет 2–4 %, но всё ещё лучше бейзлайнов.
Применение:
- Личные «цифровые двойники» для раннего выявления диабета, гипертонии, депрессии.
- Данные и веса модели будут открыты.
Комментарии (48)
- Apple-2025: новая «фундаментальная» модель переходит от сырых сенсорных данных к поведенческим биомаркерам (HRV, ЧСС покоя и др.) и показывает высокую точность для ряда заболеваний.
- Участники удивлены: в ~10 задачах модель проигрывает простому демографическому базлайну, а где выигрывает — лишь «чуть-чуть».
- Нет открытых весов и данных из-за соглашений с участниками Apple Heart and Movement Study; доступен лишь экспорт личных XML-файлов.
- Для самостоятельного анализа годятся HealthKit/Swift или сторонние бета-инструменты.
- Обсуждаются риски приватности и интерес страховых компаний к таким данным.
How can AI ID a cat?
Как ИИ узнаёт кота? Краткий путеводитель
Нейросеть — это просто карта высокой размерности. Чтобы понять, как она отличает кота от собаки, представьте:
-
Пиксель → координата
Каждый пиксель картинки — это ось в многомерном пространстве. 1-мегапиксель = 1 млн осей. -
Слои = фильтры
Первые слои выделяют простые черты: края, текстуры. Следующие комбинируют их в уши, усы, глаза. Последний слой решает: «кот» или «не кот». -
Границы классов
Внутри пространства сети строит гиперплоскости, разделяющие «котов» и «собак». Обучение — это подбор положения этих плоскостей так, чтобы ошибок было меньше. -
Точки и расстояния
Похожие картинки оказываются рядом. Если точка оказалась по «ту сторону» границы, сеть штрафуется и корректирует веса. -
Тысячи измерений
Мы не можем их увидеть, но алгоритм «гуляет» по этому лабиринту и выводит: «Это 97 % кот».
Главное: никакой магии — только геометрия в пространстве с миллионами осей.
Комментарии (48)
- Современные нейросети не выделяют «сущность кошачности», а просто учатся разделять пространство признаков.
- Apple/Google Photos хорошо группируют котов, но путают серых полосатых братьев и кроликов.
- Explainable-AI (saliency-карты) показывает, что модели часто опираются на глаза или цвет шерсти.
- Идея «кошачьего Face-ID» реальна, но требует большого и сложного набора данных.
- Практически уже работают дверцы с RFID-чипами, а в DIY-проектах используют камеры и Raspberry Pi.
Show HN: Luminal – Open-source, search-based GPU compiler
luminal — библиотека для глубокого обучения, работающая «со скоростью света».
Основное
- Язык: Rust
- Цель: максимально быстрое вычисление градиентов и обучение нейросетей.
- Подход: компиляция вычислительного графа в высокооптимизированный нативный код (LLVM).
Возможности
- Автоматическое дифференцирование.
- JIT-компиляция графов.
- Поддержка CPU и GPU (CUDA).
- Минимальные накладные расходы: нет Python-интерпретатора и лишних библиотек.
Примеры
let x = Cpu::tensor([1.0, 2.0, 3.0]);
let y = x.relu().sum();
let g = y.backward(); // градиент за наносекунды
Установка
cargo add luminal
Статус
Проект в активной разработке; API может меняться.
Комментарии (53)
- Luminal — это ML-фреймворк, который вместо ручных правил формулирует оптимизацию как поиск по огромному пространству возможных ядер (tiling, потоки, инструкции и т.д.) с помощью e-graphs.
- Сейчас на M-серии MacBook Llama-3 8B Q8 выдаёт 15-25 ток/с; это ниже llama.cpp, но команда строит трекер производительности и продолжает улучшать поиск.
- Поиск ограничен 12 базовыми линейно-алгебраическими операциями, что делает задачу похожей на «superoptimisation» и позволяет добавлять аппаратно-специфичные инструкции (tensor cores, PTX/ASM) без роста frontend.
- Для оценки качества ядра используется реальное время выполнения на целевом железе; масштабировать планируют распараллеленным профилированием на кластерах GPU.
- Отличие от TVM/tinygrad — единое пространство поиска, включающее как параметры тайлинга, так и алгебраические преобразования (например, softmax → flash-attention).
Gemma 3 270M re-implemented in pure PyTorch for local tinkering 🔥 Горячее
- Назначение: ноутбук
12_gemma3.ipynbпоказывает, как загрузить и запустить модель Gemma-3 (1B/4B/12B/27B) с помощью Hugging Face Transformers и KerasNLP без обучения. - Установка:
pip install transformers keras-nlp(Keras 3 + JAX/TF/PyTorch). - Код:
- Авторизация через
huggingface-cli loginиkeras_nlp.models.GemmaCausalLM.from_preset("gemma3_1b_en"). - Генерация текста:
model.generate("AI is", max_length=50).
- Авторизация через
- Особенности Gemma-3: поддержка 140 языков, контекст до 128k токенов, инструмент-вызовы, улучшенные математика и код.
- Внимание: модели весят 1–27 ГБ; требуется GPU/CPU с 8–48 ГБ ОЗУ.
Комментарии (55)
- Автор модели canyon289 представил Gemma 270M, ответил на вопросы и поделился туториалами.
- Пользователи спрашивали: как перейти от классического ML к DL, где взять гайд по тонкой настройке для NER, какие бывают применения мелких моделей и нужен ли для них дополнительный трейнинг.
- Обсуждали скорость работы на Mac CPU vs A100 GPU, качество эмбеддингов и возможность до-обучения.
- canyon289 подтвердил, что модель полезна не только для учёбы, но и для продакшена: локальная классификация, суммаризация, тегирование, быстрый дев-цикл.
Who Invented Backpropagation?
Кто изобрел обратное распространение ошибки (backpropagation)
Современный backpropagation (BP) впервые опубликовал в 1970 г. финский магистрант Сеппо Линнайнмаа [BP1][R7]; 2020 г. отмечали 50-летие метода. Предшественник — работа Келли 1960 г. [BPA].
BP — это обратный режим автоматического дифференцирования: стоимость вычисления градиента примерно равна стоимости прямого прохода. Линнайнмаа дал алгоритм для произвольных разреженных сетей и привёл код на FORTRAN; все современные фреймворки (TensorFlow и др.) опираются на его метод.
В 1960-е уже применяли цепное правило Лейбница для градиентного спуска в многослойных системах (Келли, Брайсон, Дрейфус и др.), но без учёта эффективности для разреженных сетей.
Первое применение BP к обучению весов нейросетей — Дрейфус 1973 г.; первое NN-специфическое описание — Вербос 1982 г. [BP2] (в диссертации 1974 г. его ещё нет).
Уже в 1967 г. Амари с учеником Сайто обучал пятислойный перцептрон SGD, получая внутренние представления; это было глубокое обучение задолго до 1980-х. Параллельно Ивахненко строил глубокие сети GMDH (с 1965 г.).
К 1985 г. вычисления подешевели в 1000 раз; Румелхарт и др. показали, что BP формирует полезные скрытые представления.
Комментарии (86)
- Суть спора: кто «изобрёл» backpropagation — Хинтон/Румелхарт (1980-е) или она была раньше в теории управления и автоматическом дифференцировании (1960-е, Kelley, Amari и др.).
- Большинство участников считают, что это лишь эффективное применение цепного правила, которое переоткрывалось множество раз.
- Юрген Шмидхубер подаётся как главный «скептик», обвиняющий академическое сообщество в игнорировании более ранних работ.
- Некоторые подчеркивают, что решающим стало не само «изобретение», а переход к GPU и масштабируемым фреймворкам в 2010-х.
Комментарии (12)
- Участники спорят, достаточно ли просто добавить «имя» к сетям, чтобы объявить новый парадигму.
- Сомнения в «интерпретируемости»: проблема не в функции активации, а в миллиардах связей.
- Уточняют, применима ли идея к регрессии.
- Критикуют выбор бенчмарка для классификации изображений.
- Шутят, что трёхбуквенная аббревиатура (ATN) продала бы идею втридорога.
- Некоторые признают, что визуальные прототипы всё-таки чуть понятнее, но «интерпретируемость» всё равно преувеличена.
DINOv3
DINOv3 — PyTorch-реализация и модели от Facebook Research.
Репозиторий содержит код, веса и примеры для самостоятельного обучения и дообучения.
Ключевые возможности
- Архитектура ViT: поддержка разных размеров (Small, Base, Large, Giant).
- Предобученные веса: ImageNet-22k, ImageNet-1k, SAM, COCO, ADE20k.
- Zero-shot классификация и сегментация без дообучения.
- Лёгкое дообучение: скрипты для классификации, детекции, сегментации.
Установка
git clone https://github.com/facebookresearch/dinov3
cd dinov3
pip install -r requirements.txt
Быстрый старт
from dinov3 import DinoVisionTransformer, load_pretrained
model = load_pretrained("dinov3_vitb14")
features = model.extract_features(image)
Лицензия
MIT (код) + CC-BY-NC 4.0 (веса).
Комментарии (28)
- Meta выпустила DINOv3 — самонадзорную модель зрения, обученную на 1,2 млрд изображений и выдающую плотные эмбеддинги без дообучения.
- Для спутниковых снимков появилась специальная версия, что радует специалистов по аэро- и спутниковым данным.
- Модель можно использовать как прямую замену DINOv2 в существующих пайплайнах (см. примеры в репозитории и ноутбуках).
- Лицензия новая и более ограниченная, чем Apache 2.0 у DINOv2; доступ требует регистрации и одобрения Meta.
- Сообщество отмечает высокое качество эмбеддингов, но разочаровано коммерческой лицензией.
Hand-picked selection of articles on AI fundamentals/concepts
- Основы ИИ: статьи о полном цикле — от построения нейросетей до оценки результатов.
- Алгоритмы/архитектуры: линейная и логистическая регрессия, k-ближайших соседей, кластеризация, SVM, наивный Байес, деревья решений, ансамбли, GAN, диффузия, GNN, внимание, CNN, RL, MoE, SSM, агенты, FlashAttention, ускорение моделей, спекулятивное декодирование, кросс-валидация.
- Данные/обучение: сэмплирование, дисбаланс, нормализация, парадигмы обучения, инициализация Xavier, регуляризация, градиентный спуск, функции активации и потерь, дообучение, разбиение данных, batchnorm, dropout, двойной спуск, LoRA, распределённое обучение.
- Речь: обработка речи.
- Зрение: ViT, рецептивное поле, ResNet, генерация изображений GPT-4o.
- NLP: эмбеддинги, задачи NLP, токенизация, трансформеры, LLM, RAG, RLHF, перевод, графы знаний, обнаружение галлюцинаций, NER, RAG, LLMOps, бенчмарки.
- Мультимодальность: VLM, архитектуры VLM, управление компьютером.
- Модели: BERT, GPT, CLIP, Meena, ChatGPT, GPT-4, LLaMA, Alpaca, Gemini, Toolformer, Visual ChatGPT, TaskMatrix, BigBird, o1, DeepSeek, Gemma 3n.
- Оценка: метрики, F-beta, A/B-тесты.
- MLOps: дрейф данных, инструменты и тесты MLOps.
- On-device ИИ: компрессия, PII, федеративное обучение, дифференциальная приватность, трансформеры на устройстве.
- Управление проектами: OKR, RICE, диаграммы Ганта, управление проектами.
- Разное: «Топ-30 Ильи Сацкевера».
Комментарии (13)
- Участники раскритиковали статью за очевидную машинную генерацию и «сливную» подборку источников.
- Подчёркнули, что контент местами бессмысленный и не отражает реальную картину рынка.
- Некоторые обсудили устойчивость рынка инструментов вроде Cursor и отметили, что спрос на «agentic coding» растёт независимо от судьбы отдельных продуктов.
- Один из участников задал вопрос о переходе из веб-разработки в ML и оценке времени на подготовку.
- В целом настроение: «ещё один AI-сгенерированный спам, но библиография пригодится».
GPT-OSS vs. Qwen3 and a detailed look how things evolved since GPT-2 🔥 Горячее
- gpt-oss-20b/120b — первые с 2019 г. открытые веса от OpenAI; запускаются на одной GPU благодаря MXFP4 (4-битные веса + 8-битные активации).
- Архитектура классическая: RoPE, RMSNorm, SwiGLU, без MoE. Отличия от GPT-2: больше слоёв и голов, но уже контекст (8k → 32k).
- Глубина vs ширина: gpt-oss-120b — 120 слоёв, d_model 6144; Qwen3-235B-A22B — 80 слоёв, d_model 9216. Увеличение глубины дешевле при прочих равных.
- Attention sink — первые 4 токена не вытесняются из KV-кэша, что стабилизирует длинные контексты.
- Сравнение (MMLU, GSM8K, HumanEval): gpt-oss-120b ≈ Qwen3-30B-A3B, уступает Qwen3-235B-A22B и GPT-4o, но обгоняет Llama-3-70B.
- GPT-5 (анонс) будет гибридным (dense + MoE), 1–2 трлн параметров, обучен на gpt-oss как teacher.
Комментарии (95)
- GPT-OSS не предлагает революционной архитектуры, а аккуратно комбинирует известные оптимизации (RoPE, SwiGLU, GQA, MoE) и MXFP4-квант.
- На практике Qwen3 (особенно coder-варианты 30–32 B) чаще хвалят: быстрее, точнее следует инструкциям, лучше справляется с кодом.
- GPT-OSS-120 B показывает высокие мат-оценки, но «проваливается» в логических бенчмарках и агентных задачах, а 20 B-версия может зацикливаться.
- Большинство считает, что ключевое различие — не архитектура, а данные и пайплайн обучения.
- Локальные 4–5-битные кванты Qwen3 укладываются в 12–20 GB VRAM и уже «заменяют» онлайн-модели для многих разработчиков.
Google's Genie is more impressive than GPT5
AGI стремится к универсальности, но нельзя просто import everything. Решение — компрессия и обобщение: небольшая модель покрывает огромное пространство задач. Глубокое обучение сжимает терабайты данных в десятки гигабайтов весов, и LLM не только имитируют текст, но и умеют, например, играть в шахматы без явного обучения.
Следующий шаг — world-models, способные представлять не только текст и картинки, но и всю окружающую реальность. Такая модель могла бы «смоделировать Тибет» и сообщить погоду, а робот — планировать движения, опираясь на внутреннюю симуляцию мира. Проблема в колоссальном объёме видеоданных и вычислений, поэтому мало кто рискует.
Google DeepMind рискнул: три дня назад представил Genie 3 (Generative Interactive Environments). Если GPT создаёт текст, Veo и Sora — видео, то Genie превращает описание в интерактивную видеоигру, где можно бродить минутами. Пока коротко, но это качественный скачок и намёк на будущее, где модели будут поддерживать длинную когерентность не только в тексте, но и в «живых» мирах.
Комментарии (58)
- Пользователи высмеяли идею «стимулировать Тибет» вместо обычного запроса погоды.
- Рынки ставок и графики вызвали споры: одни видят рост ожиданий Gemini-3, другие указывают, что Gemini 2.5 уже выше GPT-5 в бенчмарке.
- Многие считают статью пустой и отказываются верить демо, пока Genie 3 не станет публично доступен.
- Обсуждение свелось к тому, что ни GPT-5, ни Gemini пока не близки к AGI, а термин «AGI» постоянно меняется под маркетинг.
Qwen3-4B-Thinking-2507
-
За 3 месяца мы масштабировали «мышление» Qwen3-4B: выше качество и глубина рассуждений. Представляем Qwen3-4B-Thinking-2507:
- Существенно лучше на задачах логики, математики, науки, кода и академических бенчмарках.
- Улучшены общие навыки: следование инструкциям, инструменты, генерация текста, согласование с предпочтениями.
- Расширено понимание длинного контекста: 256K.
- Версия с увеличенной длиной «мышления» — рекомендуем для сложных задач.
-
Обзор модели:
- Тип: Causal LM; Этапы: пре-/посттренировка.
- Параметры: 4.0B (без эмбеддингов 3.6B); Слоёв: 36; GQA: 32 Q / 8 KV.
- Контекст: 262 144 токенов.
- Поддерживается только режим «thinking»; enable_thinking=True не нужен. Шаблон чата добавляет <think> автоматически; нормален вывод, содержащий только </think>.
- Подробности: блог, GitHub, документация.
-
Производительность (избранное):
- Знания: MMLU-Pro 74.0; MMLU-Redux 86.1; GPQA 65.8.
- Рассуждения: AIME25 81.3; HMMT25 55.5; LiveBench 71.8.
- Код: LiveCodeBench v6 55.2; CFEval 1852; OJBench 17.9.
- Алайнмент: IFEval 87.4; Arena-Hard v2 34.9; WritingBench 83.3.
- Агенты: BFCL-v3 71.2; TAU1/2 — лучшие в ряде доменов.
- Мультиязычность: MultiIF 77.3; PolyMATH 46.2.
- Примечания: выигрыш на Arena — GPT-4.1; для сложных задач — вывод до 81 920 токенов, иначе 32 768.
-
Быстрый старт:
- Нужен свежий transformers (иначе KeyError: 'qwen3').
- Пример кода: загрузить AutoTokenizer/AutoModelForCausalLM, применить chat template, сгенерировать до 32 768 новых токенов, выделить «thinking»-часть до токена </think> (ID 151668) и основное содержимое.
- Для продакшна: sglang>=0.4.6.post1 или vllm>=0.8.5; можно поднять OpenAI-совместимый сервис.
Комментарии (60)
- Обсуждают малый открытый модель Qwen3-4B (в т.ч. «Thinking/Instr»), её доступность в LM Studio и на Hugging Face, возможность запуска на ПК, Mac (mlx 4–8 бит) и даже на слабом железе; полный контекст 262k токенов может требовать десятки ГБ RAM.
- По отзывам: модель быстрая, компактная и по многим бенчмаркам заметно улучшена; в ряде метрик приближается к старой 30B MoE-версии при ~7,5× меньшем размере, но новая 30B-A3B всё же сильнее.
- Практический опыт: хороша в анализе задач, но встречаются галлюцинации в предложениях/советах.
- Идёт сравнение с Gemma 3n: на общих тестах (напр. AIME, LiveCodeBench) Qwen3-4B-Thinking показывает значительно более высокие результаты.
- Обсуждают надёжность метрик: многие бенчмарки оцениваются GPT‑4.1; возникают вопросы о возможной адаптации моделей под «угодные» ответы и нехватке ручного аудита.
- Для «народных» оценок советуют LM Arena, Artificial Analysis, OpenRouter stats и r/LocalLlama, но подчёркивают ограниченную надёжность толпы.
- Вопросы пользователей: как соотносится контекст и RAM; варианты для iPhone/Apple Silicon; ссылки на готовые gguf и mlx-сборки предоставлены.
Open music foundation models for full-song generation
YuE — генеративная модель для создания песен в разных жанрах. Название означает «музыка» и «радость» по-китайски, произносится как «yeah».
Жанры и примеры
- Metal: агрессивный металкор, гитарные риффы, вокал fry.
- Jazz: женский блюз, фортепиано, романтичная гитара.
- Rap: хип-хоп с синтезатором, уличное звучание.
- Pop: вдохновляющий женский вокал, электроника.
Лирика генерируется GPT; планируется добавить мировую музыку, включая Пекинскую оперу.
Комментарии (61)
- Пользователи заметили, что первые секунды «AI death-growl» почти дословно повторяют фрагмент Behemoth «Ov Fire and the Void».
- Основной запрос — не полные треки, а практичные инструменты: стилевой transfer, восстановление плохих записей, генерация отдельных партий/loop-ов, «бесконечный Splice».
- Упомянуты нишевые, но живые идеи: AI-драммер в Logic, live-джем с виртуальным гитаристом, VST-плагины для DAW.
- Сценарии использования делятся на три группы: фон для видео/подкастов, «музыкальные подарки» и мемы, быстрый прототип для настоящих музыкантов; критика — поток «бесплатных музыкантов» и засорение стримингов AI-шлаком.
Gemini 2.5 Deep Think 🔥 Горячее 💬 Длинная дискуссия
—
Комментарии (249)
I started doing some experimentation with this new Deep Think agent, and after five prompts I reached my daily usage limit. For $250 USD/mo that’s what you’ll be getting folks.It’s just bizarrely uncompetitive with o3-pro and Grok 4 Heavy. Anecdotally (from my experience) this wa