Тег: #world-models — Hacker News Digest

Why Fei-Fei Li and Yann LeCun Are Both Betting on "World Models" (entropytown.com)

AI достигла фазы "моделирования всего мира", где термин "world model" теперь означает три разных подхода. Фэй-Фэй Ли с World Labs представила Marble — мультимодальную модель, превращающую текст в интерактивные 3D-сцены в браузере, в то время как Ян Лекун reportedly покидает Meta, чтобы создать собственный startup по world models, а DeepMind называет свой интерактивный видео-движок Genie 3 world model. Несмотря на общее название, эти подходы кардинально различаются по целям и реализации.

Marble представляет собой полный 3D-конвейент, принимающий текст, изображения, видео или простые макеты и генерирующий редактируемые 3D-миры, экспортируемые как Gaussian splats, сетки или видео. Хотя позиционируется как "world model", сообщество отмечает, что Marble скорее инструмент создания 3D-активов, чем когнитивная модель мира. Как заметил один пользователь Hacker News: "Это модель Gaussian Splat, а не роботий мозг". В отличие от DeepMind's Genie 3, генерирующего видео в реальном времени, Marble создает статические 3D-активы, напоминающие игровые ресурсы.

by signa11 • 14 ноября 2025 г. в 02:49 • 87 points

Оригинал • HN

#world-models #llm #machine-learning #3d-rendering #deepmind #meta #nvidia #gaussian-splat

Комментарии (45)

LLM критикуются как статичные и недостаточные для AGI из-за отсутствия реального мира и динамических адаптаций.
World Models (Dreamer, Marble, NVIDIA) позиционируются как перспективное направление для преодоления ограничений LLM через предсказание и интеграцию с реальным миром.
Коммерческая ценность World Models ставится под сомнение: их потенциал как "следующей большой вещи" для VC контрастирует с отсутствием текущей B2B-выручки.
Философски спорно, являются ли World Models фундаментальным прорывом или лишь модификацией существующих нейросетевых подходов.
Применение в медиа (видео, VR) и робототехме выдвигается как ключевое практическое направление для развития.

'World Models,' an old idea in AI, mount a comeback (quantamagazine.org)

Мир внутри ИИ
Полвека назад «модели мира» были фундаментом ИИ: система хранила внутреннюю копию окружения и планировала действия, прогоняя возможные будущие. С приходом больших данных и LLM идея ушла в тень, но теперь возвращается как ключ к AGI.

Почему снова актуально

Проблема LLM: они предсказывают слова, а не последствия; не умеют планировать и обобщать.
Плюс модели мира: позволяет «воображать» сцены, тестировать действия безопасно, переносить знания в новые задачи.
Сдвиг в масштабе: современные нейросети могут обучать модели с миллионами параметров на видео и симуляциях, чего раньше не хватало.

Как строят сегодня

Видеопредсказание: нейросети, обученные на YouTube, генерируют следующие кадры и учатся физике столкновений, трения, гравитации.
Игра в уме: агенты Dreamer и MuZero учатся в «галлюцинациях» без внешнего мира, экономя время и энергию.
Композиция знаний: новые архитектуры объединяют языковые модели с пространственными представлениями, позволяя отвечать «что будет, если…».

Где уже работает

Роботы-манипуляторы от Google DeepMind учатся складывать блоки, «прокручивая» будущее в голове.
Дроны и автономные машины используют модели мира для планирования траекторий в сложной местности.
Генеративные видео-системы (Sora, Veo) не просто рисуют картинки, а моделируют физику сцены.

Ограничения и риски

Пока модели мира хрупки: ошибаются в редких событиях и плохо переносятся между доменами.
Требуют огромных данных и вычислений.
Открыты вопросы безопасности: если ИИ «воображает» опасные сценарии, кто контролирует, что он не начнёт их реализовывать?

Вывод
Модели мира — не серебряная пуля, но без них путь к универсальному ИИ выглядит тупиковым. Следующий прорыв может случиться, когда языковые модели научатся не только говорить, но и «видеть» последствия своих слов.

by warrenm • 02 сентября 2025 г. в 16:53 • 183 points

Оригинал • HN

#llm #world-models #neural-networks #ag #reinforcement-learning #dreamer #muzero #google-deepmind #generative-ai

Комментарии (67)

Современные шахматные движки всё ещё опираются на полную реализацию логики игры и глубокий перебор, но уже используют нейросети для оценки позиций.
Попытки заменить это «чистыми» нейромоделями приводят к невалидным ходам и глупым ошибкам, если нет явной проверки правил.
Участники подчёркивают, что мир «в голове» ИИ должен быть неполным и постоянно корректироваться по новым данным, иначе возникает фрейм-проблема.
Обсуждаются альтернативы: гауссовы сплэттинги, пользовательские грамматики, солипсистические модели, но все они либо узки, либо требуют ручной настройки.
Итог: пока нет универсального способа построить надёжную world-model; нужен гибрид символики, нейросетей и постоянной адаптации.

Google's Genie is more impressive than GPT5 (theahura.substack.com)

AGI стремится к универсальности, но нельзя просто import everything. Решение — компрессия и обобщение: небольшая модель покрывает огромное пространство задач. Глубокое обучение сжимает терабайты данных в десятки гигабайтов весов, и LLM не только имитируют текст, но и умеют, например, играть в шахматы без явного обучения.

Следующий шаг — world-models, способные представлять не только текст и картинки, но и всю окружающую реальность. Такая модель могла бы «смоделировать Тибет» и сообщить погоду, а робот — планировать движения, опираясь на внутреннюю симуляцию мира. Проблема в колоссальном объёме видеоданных и вычислений, поэтому мало кто рискует.

Google DeepMind рискнул: три дня назад представил Genie 3 (Generative Interactive Environments). Если GPT создаёт текст, Veo и Sora — видео, то Genie превращает описание в интерактивную видеоигру, где можно бродить минутами. Пока коротко, но это качественный скачок и намёк на будущее, где модели будут поддерживать длинную когерентность не только в тексте, но и в «живых» мирах.

by theahura • 08 августа 2025 г. в 14:46 • 177 points

Оригинал • HN

#agi #google-deepmind #genie #llm #world-models #deep-learning #machine-learning #google

Комментарии (58)

Пользователи высмеяли идею «стимулировать Тибет» вместо обычного запроса погоды.
Рынки ставок и графики вызвали споры: одни видят рост ожиданий Gemini-3, другие указывают, что Gemini 2.5 уже выше GPT-5 в бенчмарке.
Многие считают статью пустой и отказываются верить демо, пока Genie 3 не станет публично доступен.
Обсуждение свелось к тому, что ни GPT-5, ни Gemini пока не близки к AGI, а термин «AGI» постоянно меняется под маркетинг.

Genie 3: A new frontier for world models (deepmind.google) 🔥 Горячее 💬 Длинная дискуссия

Genie 3 — возможности:

Ниже — записи реальных взаимодействий с Genie 3.

Моделирование физических свойств мира

Передает природные явления (вода, свет) и сложные взаимодействия среды.

Промпт: Вид от первого лица — робот с шинами едет по вулканическому полю, избегая лавовых луж. Виден дым и потоки лавы, синее небо, вокруг лишь черные скалы.
Промпт: Вождение гидроцикла во время фестиваля огней.
Промпт: Прогулка по набережной во Флориде во время шторма: ветер гнет пальмы, волны хлещут через перила, сильный дождь, плащ-дождевик, впереди мост.
Промпт: Быстрая съемка за медузой в темных глубинах между каньонами с мидиями и крабами; вдали гидротермальные источники с ярко-синим дымом.
Промпт: Пилот вертолета маневрирует над прибрежным утесом с водопадом.

Симуляция природного мира

Генерирует экосистемы: поведение животных и детальную растительность.

Промпт: Забег вдоль ледникового озера, лесные тропы, брод через горные ручьи среди заснеженных вершин и сосен, богатая фауна.
Промпт: Реальная трекинг-съемка: заплыв через темные океанские каньоны среди огромной стаи медуз, биолюминесценция.
Промпт: Фотореалистичный дзен-сад на рассвете: белый песок с узорами, пруд с лилиями, камни с мхом, каменный фонарь и кэрн, забор из бамбука.
Промпт: Густая листва с каплями воды и пятнистым светом; влажный, спокойный воздух, мягко размытый фон.

Моделирование анимации и вымысла

Создает фантастические сцены и выразительных персонажей.

Промпт: Яркий 3D-стиль: пушистое существо с ушами, как у овчарки, мчится по радужному мосту среди парящих островов и светящейся флоры; свет теплый и радостный.
Промпт: Ящерица в стиле оригами.
Промпт: Широкий план: зачарованный лес в сумерках; игрок управляет крупной светлячком, пролетающим сквозь крону с пестрой листвой.

by bradleyg223 • 05 августа 2025 г. в 14:08 • 1462 points

Оригинал • HN

#deepmind #google #video-generation #vae #real-time-rendering #world-models #computer-graphics #machine-learning

Комментарии (481)

Обсуждение посвящено Genie 3 от Google DeepMind: впечатляющая реалтайм-генерация интерактивных миров (720p) с устойчивостью во времени, но крайне мало технических деталей и доступа для публики.
Технические спекуляции: возможен видео-генеративный подход с 4x временным даунскейлом в VAE и управляющими сигналами (направление/угол обзора), заметны артефакты (скачки текстур, проблемы с текстом, редкие люди в сценах).
Часть сообщества критикует отсутствие статьи/отчета и закрытость веса модели; другие отмечают, что прогресс согласуется с намёками Demis и является эмерджентным эффектом масштабирования.
Споры о подходе: «мир-модель как видео» vs классический графический конвейер (меши/анимации/рендер), вопрос о пригодности для игр, VR/XR и робототехники; звучит запрос на VR-вывод и интеграцию со звуком.
Реакции варьируются от восторга и ощущения «холодека»/диссоциации до обеспокоенности влиянием на творчество и смыслы; некоторые видят в этом шаг к embodied AI и бесконечному синтетическому датасету.
Практические ожидания: ускорение прототипирования в геймдеве, обучение навыкам через ИИ-NPC и терапию; скептики считают демо «бережным» и сомневаются в масштабируемой пользе без перехода к 3D-структурам.
Вопросы остаются: архитектура, вычислительные затраты, форматы объектов/интеграция, сроки публичного доступа и реальная применимость за пределами демонстраций.