Тег: #video-generation — Hacker News Digest

Sora Update #1 (blog.samaltman.com)

OpenAI активно собирает отзывы о Sora и готовится внести изменения. Правообладатели получат более детальный контроль над генерацией персонажей — смогут указывать, как их можно использовать, включая полный запрет. Многие из них видят потенциал в «интерактивной фанфикшн» и ожидают роста вовлечённости.

Также компания ищет способ монетизации генерации видео, поскольку пользователи создают контента больше ожидаемого. Часть доходов планируется делиться с правообладателями, чьи персонажи используются. OpenAI предупреждает, что возможны ошибки в процессе, но обещает быстро реагировать на фидбэк и постоянно совершенствовать систему.

by davidbarker • 04 октября 2025 г. в 00:39 • 108 points

Оригинал • HN

#openai #generative-ai #video-generation #intellectual-property #content-moderation #user-feedback

Комментарии (131)

OpenAI столкнулась с юридическими угрозами от правообладателей (включая Ghibli и Nintendo) из-за генерации контента с использованием их IP, что привело к введению строгих ограничений на создание видео.
Компания осознала необходимость монетизации генерации видео из-за высоких вычислительных затрат и планирует внедрить плату за использование, а также рассмотреть возможность распределения доходов с правообладателями.
Пользователи выражают разочарование из-за резкого ужесточения ограничений, которые теперь блокируют создание контента по мотивам даже не самых известных игр и франшиз.
В сообществе распространено мнение, что изначальное разрешение генерации защищённого контента было осознанным PR-ходом для роста популярности, а не ошибкой.
Подход OpenAI к решению проблемы воспринимается многими как лицемерный, неискренний и технически сложный для реализации на практике.

Voyager – An interactive video generation model with realtime 3D reconstruction (github.com) 🔥 Горячее 💬 Длинная дискуссия

Voyager — интерактивная модель генерации RGBD-видео от Tencent Hunyuan, управляемая траекторией камеры и поддерживающая реконструкцию 3D-сцен в реальном времени.

by mingtianzhang • 03 сентября 2025 г. в 11:07 • 302 points

Оригинал • HN

#tencent #3d-reconstruction #machine-learning #llm #lidar #video-generation #github

Комментарии (206)

Лицензия запрещает использование в ЕС, Великобритании и Южной Корее, что участники связывают с регуляторными рисками (EU AI Act).
Модель не полностью open-source: доступны только веса, без данных обучения.
Пользователи отмечают ограниченные углы обзора в демо-видео и требуют «полного 360°».
Минимальные требования — 60 ГБ VRAM для 540p, что делает технологию недоступной для большинства.
Обсуждаются потенциальные применения: от замены LiDAR до генерации игр и 3D-сцен из фото/видео.

Wan – Open-source alternative to VEO 3 (github.com)

Wan2.2 — открытая генеративная модель для создания видео.
Репозиторий: Wan-Video/Wan2.2

Масштабируемость — работает от локального GPU до кластеров.
Качество — высокое разрешение, плавность, точность текста.
Гибкость — обучение, дообучение, инференс через PyTorch.
Форматы — MP4, GIF, WebM; выбор fps и разрешения.
API & CLI — простой запуск: wan2.2 generate --prompt "...".
Docker — готовый образ wanvideo/wan2.2:latest.
Лицензия Apache 2.0, коммерческое использование разрешено.

by modinfo • 17 августа 2025 г. в 05:00 • 190 points

Оригинал • HN

#pytorch #docker #apache-2.0 #gpu #nvidia #video-generation #lora #moe-architecture #github

Комментарии (31)

Wan2GP позволяет запускать модели Wan 2.1/2.2 на видеокартах всего 6 ГБ VRAM (Nvidia) и объединяет десятки вариантов моделей с LoRA-ускорением и активным Discord-сообществом.
Пользователи хвалят качество Wan 2.2: 27B «MoE»-архитектура (два 14B эксперта для разных уровней детализации), 5B-модель выдаёт 720p24 на RTX 4090/24 ГБ или двух 12 ГБ GPU.
Генерация 4-секундного видео Image-to-Video занимает 3–4 мин, апскейл до 4K — ещё 2–3 мин; изображения рендерятся за 20–40 с.
Участники спрашивают о бенчмарках видео-моделей, UI-обёртке «Obi» и высокопроизводительных инференс-фреймворках вроде vLLM для видео.
Некоторые критикуют название «Wan», спорят о корректности термина MoE и отмечают, что Replicate-версия дешевле и проще в использовании.

Genie 3: A new frontier for world models (deepmind.google) 🔥 Горячее 💬 Длинная дискуссия

Genie 3 — возможности:

Ниже — записи реальных взаимодействий с Genie 3.

Моделирование физических свойств мира

Передает природные явления (вода, свет) и сложные взаимодействия среды.

Промпт: Вид от первого лица — робот с шинами едет по вулканическому полю, избегая лавовых луж. Виден дым и потоки лавы, синее небо, вокруг лишь черные скалы.
Промпт: Вождение гидроцикла во время фестиваля огней.
Промпт: Прогулка по набережной во Флориде во время шторма: ветер гнет пальмы, волны хлещут через перила, сильный дождь, плащ-дождевик, впереди мост.
Промпт: Быстрая съемка за медузой в темных глубинах между каньонами с мидиями и крабами; вдали гидротермальные источники с ярко-синим дымом.
Промпт: Пилот вертолета маневрирует над прибрежным утесом с водопадом.

Симуляция природного мира

Генерирует экосистемы: поведение животных и детальную растительность.

Промпт: Забег вдоль ледникового озера, лесные тропы, брод через горные ручьи среди заснеженных вершин и сосен, богатая фауна.
Промпт: Реальная трекинг-съемка: заплыв через темные океанские каньоны среди огромной стаи медуз, биолюминесценция.
Промпт: Фотореалистичный дзен-сад на рассвете: белый песок с узорами, пруд с лилиями, камни с мхом, каменный фонарь и кэрн, забор из бамбука.
Промпт: Густая листва с каплями воды и пятнистым светом; влажный, спокойный воздух, мягко размытый фон.

Моделирование анимации и вымысла

Создает фантастические сцены и выразительных персонажей.

Промпт: Яркий 3D-стиль: пушистое существо с ушами, как у овчарки, мчится по радужному мосту среди парящих островов и светящейся флоры; свет теплый и радостный.
Промпт: Ящерица в стиле оригами.
Промпт: Широкий план: зачарованный лес в сумерках; игрок управляет крупной светлячком, пролетающим сквозь крону с пестрой листвой.

by bradleyg223 • 05 августа 2025 г. в 14:08 • 1462 points

Оригинал • HN

#deepmind #google #video-generation #vae #real-time-rendering #world-models #computer-graphics #machine-learning

Комментарии (481)

Обсуждение посвящено Genie 3 от Google DeepMind: впечатляющая реалтайм-генерация интерактивных миров (720p) с устойчивостью во времени, но крайне мало технических деталей и доступа для публики.
Технические спекуляции: возможен видео-генеративный подход с 4x временным даунскейлом в VAE и управляющими сигналами (направление/угол обзора), заметны артефакты (скачки текстур, проблемы с текстом, редкие люди в сценах).
Часть сообщества критикует отсутствие статьи/отчета и закрытость веса модели; другие отмечают, что прогресс согласуется с намёками Demis и является эмерджентным эффектом масштабирования.
Споры о подходе: «мир-модель как видео» vs классический графический конвейер (меши/анимации/рендер), вопрос о пригодности для игр, VR/XR и робототехники; звучит запрос на VR-вывод и интеграцию со звуком.
Реакции варьируются от восторга и ощущения «холодека»/диссоциации до обеспокоенности влиянием на творчество и смыслы; некоторые видят в этом шаг к embodied AI и бесконечному синтетическому датасету.
Практические ожидания: ускорение прототипирования в геймдеве, обучение навыкам через ИИ-NPC и терапию; скептики считают демо «бережным» и сомневаются в масштабируемой пользе без перехода к 3D-структурам.
Вопросы остаются: архитектура, вычислительные затраты, форматы объектов/интеграция, сроки публичного доступа и реальная применимость за пределами демонстраций.