Hacker News Digest

Тег: #diffusion-models

Постов: 5

The Principles of Diffusion Models (arxiv.org)

Эта монография представляет основные принципы, лежащие в основе диффузионных моделей, прослеживая их происхождение и показывая, как различные формулировки возникают из общих математических идей. Диффузионное моделирование начинается с определения прямого процесса, который постепенно искажает данные в шум, связывая распределение данных с простым априорным через континуум промежуточных распределений. Авторы описывают три дополняющих друг друга подхода: вариационный (как пошаговое удаление шума), основанный на скорах (изучение градиента эволюции распределения данных) и потоковый (генерация как следование плавному пути). Все эти перспективы разделяют общий каркас: зависящее от времени поле скоростей, чье течение транспортирует простой априор в данные.

Выборка сводится к решению дифференциального уравнения, эволюционирующего шум в данные по непрерывной траектории. На этой основе монография обсуждает руководство для управляемой генерации, эффективные численные решатели и модели, вдохновленные диффузией, которые изучают прямые отображения между произвольными моментами времени. Работа обеспечивает концептуальное и математически обоснованное понимание диффузионных моделей для читателей с базовыми знаниями глубокого обучения.

by Anon84 • 09 ноября 2025 г. в 16:10 • 205 points

ОригиналHN

#diffusion-models#machine-learning#artificial-intelligence#mathematics#deep-learning#arxiv

Комментарии (20)

  • Обсуждение началось с вопроса о дубликатах и правилах HN, где участники обсудили, что считается дубликатом и как обходить правило о дубликатах.
  • Участники обменялись мнениями о том, что такое «брут-форс» в контексте ИИ и эволюции, а также о том, как эволюция и обучение ИИ связаны с «брут-форсом».
  • Обсуждались также вопросы о том, как ИИ может быть использован для обучения и как это может повлиять на образование.
  • Также обсуждались вопросы о том, как ИИ может быть использован для обучения и как это может повлиять на образование.

Skyfall-GS – Synthesizing Immersive 3D Urban Scenes from Satellite Imagery (skyfall-gs.jayinnn.dev)

Skyfall-GS — это инновационный фреймворк, преобразующий спутниковые изображения в интерактивные 3D городские сцены без необходимости в дорогих 3D аннотациях. Исследователи из Национального университета Ян Мин Чао Тунг и других институтов объединили спутниковые снимки для создания базовой геометрии с диффузионными моделями для детализированных текстур, что позволило создать масштабируемые городские кварталы с реалистичной визуализацией.

Метод работает в два этапа: сначала реконструирует начальную 3D-сцену с помощью 3DGS и псевдо-глубинного контроля, затем применяет итеративную технику обновления наборов данных (IDU) с использованием предобученной диффузионной модели. Это значительно снижает артефакты и повышает точность геометрии и реализм текстур. Результаты демонстрируют улучшенную согласованность геометрии и более реалистичные текстуры по сравнению с существующими подходами, с возможностью реального времени и свободного навигации по созданным сценам.

by ChrisArchitect • 03 ноября 2025 г. в 13:46 • 128 points

ОригиналHN

#3d-rendering#diffusion-models#gaussian-splatting#satellite-imagery#microsoft-flight-simulator#street-view#drones

Комментарии (33)

  • Обсуждение началось с критики маркетингового словосочетания «explorable» и «immersive» при невозможности проникнуть под уровень крыш зданий из-за ограничений спутниковых снимков и последующих артефактов Gaussian Splatting'а.
  • Участники обсудили, что Microsoft Flight Simulator использует подобную технологию, но при этом в игре используется треугольная геометрия, а не гауссовы сплаты, потому что последние не позволяют создать коллизионную геометрию и другие ограничения.
  • Была высказана идея, что в будущем можно будет интегрировать Street View данные, что может привести к еще более детальному и точному моделированию.
  • Также было отмечено, что в будущем можно будет использовать дроновые снимки для более детального моделирования, что может привести к более иммерсивному опыту.

New antibiotic targets IBD and AI predicted how it would work (healthsci.mcmaster.ca)

by KLK2019 • 04 октября 2025 г. в 01:09 • 189 points

ОригиналHN

#llm#machine-learning#diffusion-models#gpu#ibd#antibiotics#e.-coli#research

Комментарии (76)

  • Обсуждение исследования о применении ИИ для предсказания механизма действия нового антибиотика (энтерололина), направленного на лечение воспалительных заболеваний кишечника (ВЗК) через подавление патогенных бактерий.
  • Участники подчеркивают, что ИИ не заменяет традиционные лабораторные исследования, а ускоряет и удешевляет процесс, сокращая время и стоимость изучения механизма действия с двух лет и $2 млн до шести месяцев и $60 тыс.
  • Критический взгляд на терминологию: различие между ИИ как общим понятием в СМИ и конкретными методами машинного обучения (например, диффузионными моделями), не всегда связанными с LLM.
  • Скептические вопросы о новизне открытия, связи ВЗК с E. coli и потенциальной предвзятости при интерпретации предсказаний ИИ, а также о роли экспертов-специалистов в валидации результатов.
  • Практические аспекты: доступ к вычислительным ресурсам (GPU) для исследователей, важность междисциплинарного сотрудничества и исторический контекст ранее известных ингибиторов (например, глобомицина).

High-resolution efficient image generation from WiFi Mapping (arxiv.org)

Исследователи предложили метод генерации изображений высокого разрешения на основе данных WiFi Channel State Information (CSI), используя предобученную модель латентной диффузии. Вместо прямого преобразования радиосигналов в пиксели, модель сначала переводит CSI в скрытое пространство, где диффузионный процесс достраивает детализированное представление. Это позволяет эффективно восстанавливать сложные сцены с высоким качеством, избегая шумов и артефактов традиционных подходов.

Ключевым преимуществом является использование предобученного диффузионного компонента, что значительно сокращает вычислительные затраты и время обучения. Метод демонстрирует практическую применимость в сценариях мониторинга через стены или в условиях низкой видимости, расширяя возможности беспроводных технологий для компьютерного зрения.

by oldfuture • 01 октября 2025 г. в 06:33 • 118 points

ОригиналHN

#wifi#channel-state-information#diffusion-models#computer-vision#machine-learning#image-generation#latent-space#privacy-concerns#arxiv

Комментарии (32)

  • Технология использует Wi-Fi данные (CSI) как дополнительное условие для модели диффузии (Stable Diffusion), которая генерирует изображения, заполняя пробелы правдоподобными, но частично случайными деталями.
  • Модель обучалась на парных данных (Wi-Fi и изображения) конкретной комнаты и человека, что вызывает скептицизм относительно её способности обобщать и обвинения в переобучении.
  • Результаты демонстрируют высокую детализацию, но цвет и многие визуальные элементы не извлекаются из Wi-Fi, а являются результатом работы генеративной модели.
  • Обсуждаются потенциальные угрозы приватности, если технология получит развитие, поскольку она теоретически может позволить "видеть" сквозь стены.
  • Отмечается недостаток информации в статье: низкое разрешение примеров изображений и отсутствие деталей о том, как именно данные собирались и обрабатывались.

Diffusion language models are super data learners (jinjieni.notion.site)

Notion — это универсальный инструмент для заметок, задач, баз знаний и совместной работы. Объединяет блоки текста, таблицы, календари, доски Kanban, базы данных и встраиваемые медиа в единое пространство. Поддерживает шаблоны, автоматизацию, API и интеграции (Slack, GitHub, Figma и др.). Работает в браузере, на macOS, Windows, iOS и Android. Бесплатный план для личного использования; платные тарифы для команд и расширенных функций.

by babelfish • 10 августа 2025 г. в 16:04 • 202 points

ОригиналHN

#notion#kanban#api#slack#github#figma#autoregressive-models#diffusion-models#flops#chain-of-thought

Комментарии (14)

  • Участники спорят, почему диффузионные модели проигрывают авторегрессии: BarakWidawsky связывает это с меньшей способностью к запоминанию, а ckjellqv — с невозможностью KV-кеширования.
  • Woadwarrior01 удивлён росту FLOPs при генерации длинных последовательностей (×16–4700) и отмечает нелинейную зависимость.
  • Godelski критикует неясность терминов «in/out-of-distribution» без описания обучающих данных.
  • Bicsi предлагает «закрыть» диффузионные модели, считая цепочку мыслей (CoT) быстрым и мощным заменителем; против выступают fancyfredbot и SalmoShalazar, призывая не отвергать подход преждевременно.