'World Models,' an old idea in AI, mount a comeback

Мир внутри ИИ
Полвека назад «модели мира» были фундаментом ИИ: система хранила внутреннюю копию окружения и планировала действия, прогоняя возможные будущие. С приходом больших данных и LLM идея ушла в тень, но теперь возвращается как ключ к AGI.

Почему снова актуально

Проблема LLM: они предсказывают слова, а не последствия; не умеют планировать и обобщать.
Плюс модели мира: позволяет «воображать» сцены, тестировать действия безопасно, переносить знания в новые задачи.
Сдвиг в масштабе: современные нейросети могут обучать модели с миллионами параметров на видео и симуляциях, чего раньше не хватало.

Как строят сегодня

Видеопредсказание: нейросети, обученные на YouTube, генерируют следующие кадры и учатся физике столкновений, трения, гравитации.
Игра в уме: агенты Dreamer и MuZero учатся в «галлюцинациях» без внешнего мира, экономя время и энергию.
Композиция знаний: новые архитектуры объединяют языковые модели с пространственными представлениями, позволяя отвечать «что будет, если…».

Где уже работает

Роботы-манипуляторы от Google DeepMind учатся складывать блоки, «прокручивая» будущее в голове.
Дроны и автономные машины используют модели мира для планирования траекторий в сложной местности.
Генеративные видео-системы (Sora, Veo) не просто рисуют картинки, а моделируют физику сцены.

Ограничения и риски

Пока модели мира хрупки: ошибаются в редких событиях и плохо переносятся между доменами.
Требуют огромных данных и вычислений.
Открыты вопросы безопасности: если ИИ «воображает» опасные сценарии, кто контролирует, что он не начнёт их реализовывать?

Вывод
Модели мира — не серебряная пуля, но без них путь к универсальному ИИ выглядит тупиковым. Следующий прорыв может случиться, когда языковые модели научатся не только говорить, но и «видеть» последствия своих слов.

Комментарии (67)

Современные шахматные движки всё ещё опираются на полную реализацию логики игры и глубокий перебор, но уже используют нейросети для оценки позиций.
Попытки заменить это «чистыми» нейромоделями приводят к невалидным ходам и глупым ошибкам, если нет явной проверки правил.
Участники подчёркивают, что мир «в голове» ИИ должен быть неполным и постоянно корректироваться по новым данным, иначе возникает фрейм-проблема.
Обсуждаются альтернативы: гауссовы сплэттинги, пользовательские грамматики, солипсистические модели, но все они либо узки, либо требуют ручной настройки.
Итог: пока нет универсального способа построить надёжную world-model; нужен гибрид символики, нейросетей и постоянной адаптации.