Sora Update #1
OpenAI активно собирает отзывы о Sora и готовится внести изменения. Правообладатели получат более детальный контроль над генерацией персонажей — смогут указывать, как их можно использовать, включая полный запрет. Многие из них видят потенциал в «интерактивной фанфикшн» и ожидают роста вовлечённости.
Также компания ищет способ монетизации генерации видео, поскольку пользователи создают контента больше ожидаемого. Часть доходов планируется делиться с правообладателями, чьи персонажи используются. OpenAI предупреждает, что возможны ошибки в процессе, но обещает быстро реагировать на фидбэк и постоянно совершенствовать систему.
Комментарии (131)
- OpenAI столкнулась с юридическими угрозами от правообладателей (включая Ghibli и Nintendo) из-за генерации контента с использованием их IP, что привело к введению строгих ограничений на создание видео.
- Компания осознала необходимость монетизации генерации видео из-за высоких вычислительных затрат и планирует внедрить плату за использование, а также рассмотреть возможность распределения доходов с правообладателями.
- Пользователи выражают разочарование из-за резкого ужесточения ограничений, которые теперь блокируют создание контента по мотивам даже не самых известных игр и франшиз.
- В сообществе распространено мнение, что изначальное разрешение генерации защищённого контента было осознанным PR-ходом для роста популярности, а не ошибкой.
- Подход OpenAI к решению проблемы воспринимается многими как лицемерный, неискренний и технически сложный для реализации на практике.
Voyager – An interactive video generation model with realtime 3D reconstruction 🔥 Горячее 💬 Длинная дискуссия
Voyager — интерактивная модель генерации RGBD-видео от Tencent Hunyuan, управляемая траекторией камеры и поддерживающая реконструкцию 3D-сцен в реальном времени.
Комментарии (206)
- Лицензия запрещает использование в ЕС, Великобритании и Южной Корее, что участники связывают с регуляторными рисками (EU AI Act).
- Модель не полностью open-source: доступны только веса, без данных обучения.
- Пользователи отмечают ограниченные углы обзора в демо-видео и требуют «полного 360°».
- Минимальные требования — 60 ГБ VRAM для 540p, что делает технологию недоступной для большинства.
- Обсуждаются потенциальные применения: от замены LiDAR до генерации игр и 3D-сцен из фото/видео.
Wan – Open-source alternative to VEO 3
Wan2.2 — открытая генеративная модель для создания видео.
Репозиторий: Wan-Video/Wan2.2
- Масштабируемость — работает от локального GPU до кластеров.
- Качество — высокое разрешение, плавность, точность текста.
- Гибкость — обучение, дообучение, инференс через PyTorch.
- Форматы — MP4, GIF, WebM; выбор fps и разрешения.
- API & CLI — простой запуск:
wan2.2 generate --prompt "...". - Docker — готовый образ
wanvideo/wan2.2:latest. - Лицензия Apache 2.0, коммерческое использование разрешено.
Комментарии (31)
- Wan2GP позволяет запускать модели Wan 2.1/2.2 на видеокартах всего 6 ГБ VRAM (Nvidia) и объединяет десятки вариантов моделей с LoRA-ускорением и активным Discord-сообществом.
- Пользователи хвалят качество Wan 2.2: 27B «MoE»-архитектура (два 14B эксперта для разных уровней детализации), 5B-модель выдаёт 720p24 на RTX 4090/24 ГБ или двух 12 ГБ GPU.
- Генерация 4-секундного видео Image-to-Video занимает 3–4 мин, апскейл до 4K — ещё 2–3 мин; изображения рендерятся за 20–40 с.
- Участники спрашивают о бенчмарках видео-моделей, UI-обёртке «Obi» и высокопроизводительных инференс-фреймворках вроде vLLM для видео.
- Некоторые критикуют название «Wan», спорят о корректности термина MoE и отмечают, что Replicate-версия дешевле и проще в использовании.
Genie 3: A new frontier for world models 🔥 Горячее 💬 Длинная дискуссия
Genie 3 — возможности:
Ниже — записи реальных взаимодействий с Genie 3.
Моделирование физических свойств мира
Передает природные явления (вода, свет) и сложные взаимодействия среды.
- Промпт: Вид от первого лица — робот с шинами едет по вулканическому полю, избегая лавовых луж. Виден дым и потоки лавы, синее небо, вокруг лишь черные скалы.
- Промпт: Вождение гидроцикла во время фестиваля огней.
- Промпт: Прогулка по набережной во Флориде во время шторма: ветер гнет пальмы, волны хлещут через перила, сильный дождь, плащ-дождевик, впереди мост.
- Промпт: Быстрая съемка за медузой в темных глубинах между каньонами с мидиями и крабами; вдали гидротермальные источники с ярко-синим дымом.
- Промпт: Пилот вертолета маневрирует над прибрежным утесом с водопадом.
Симуляция природного мира
Генерирует экосистемы: поведение животных и детальную растительность.
- Промпт: Забег вдоль ледникового озера, лесные тропы, брод через горные ручьи среди заснеженных вершин и сосен, богатая фауна.
- Промпт: Реальная трекинг-съемка: заплыв через темные океанские каньоны среди огромной стаи медуз, биолюминесценция.
- Промпт: Фотореалистичный дзен-сад на рассвете: белый песок с узорами, пруд с лилиями, камни с мхом, каменный фонарь и кэрн, забор из бамбука.
- Промпт: Густая листва с каплями воды и пятнистым светом; влажный, спокойный воздух, мягко размытый фон.
Моделирование анимации и вымысла
Создает фантастические сцены и выразительных персонажей.
- Промпт: Яркий 3D-стиль: пушистое существо с ушами, как у овчарки, мчится по радужному мосту среди парящих островов и светящейся флоры; свет теплый и радостный.
- Промпт: Ящерица в стиле оригами.
- Промпт: Широкий план: зачарованный лес в сумерках; игрок управляет крупной светлячком, пролетающим сквозь крону с пестрой листвой.
Комментарии (481)
- Обсуждение посвящено Genie 3 от Google DeepMind: впечатляющая реалтайм-генерация интерактивных миров (720p) с устойчивостью во времени, но крайне мало технических деталей и доступа для публики.
- Технические спекуляции: возможен видео-генеративный подход с 4x временным даунскейлом в VAE и управляющими сигналами (направление/угол обзора), заметны артефакты (скачки текстур, проблемы с текстом, редкие люди в сценах).
- Часть сообщества критикует отсутствие статьи/отчета и закрытость веса модели; другие отмечают, что прогресс согласуется с намёками Demis и является эмерджентным эффектом масштабирования.
- Споры о подходе: «мир-модель как видео» vs классический графический конвейер (меши/анимации/рендер), вопрос о пригодности для игр, VR/XR и робототехники; звучит запрос на VR-вывод и интеграцию со звуком.
- Реакции варьируются от восторга и ощущения «холодека»/диссоциации до обеспокоенности влиянием на творчество и смыслы; некоторые видят в этом шаг к embodied AI и бесконечному синтетическому датасету.
- Практические ожидания: ускорение прототипирования в геймдеве, обучение навыкам через ИИ-NPC и терапию; скептики считают демо «бережным» и сомневаются в масштабируемой пользе без перехода к 3D-структурам.
- Вопросы остаются: архитектура, вычислительные затраты, форматы объектов/интеграция, сроки публичного доступа и реальная применимость за пределами демонстраций.