Why Fei-Fei Li and Yann LeCun Are Both Betting on "World Models"
AI достигла фазы "моделирования всего мира", где термин "world model" теперь означает три разных подхода. Фэй-Фэй Ли с World Labs представила Marble — мультимодальную модель, превращающую текст в интерактивные 3D-сцены в браузере, в то время как Ян Лекун reportedly покидает Meta, чтобы создать собственный startup по world models, а DeepMind называет свой интерактивный видео-движок Genie 3 world model. Несмотря на общее название, эти подходы кардинально различаются по целям и реализации.
Marble представляет собой полный 3D-конвейент, принимающий текст, изображения, видео или простые макеты и генерирующий редактируемые 3D-миры, экспортируемые как Gaussian splats, сетки или видео. Хотя позиционируется как "world model", сообщество отмечает, что Marble скорее инструмент создания 3D-активов, чем когнитивная модель мира. Как заметил один пользователь Hacker News: "Это модель Gaussian Splat, а не роботий мозг". В отличие от DeepMind's Genie 3, генерирующего видео в реальном времени, Marble создает статические 3D-активы, напоминающие игровые ресурсы.