Hacker News Digest

Тег: #video-generation

Постов: 4

Sora Update #1 (blog.samaltman.com)

OpenAI активно собирает отзывы о Sora и готовится внести изменения. Правообладатели получат более детальный контроль над генерацией персонажей — смогут указывать, как их можно использовать, включая полный запрет. Многие из них видят потенциал в «интерактивной фанфикшн» и ожидают роста вовлечённости.

Также компания ищет способ монетизации генерации видео, поскольку пользователи создают контента больше ожидаемого. Часть доходов планируется делиться с правообладателями, чьи персонажи используются. OpenAI предупреждает, что возможны ошибки в процессе, но обещает быстро реагировать на фидбэк и постоянно совершенствовать систему.

by davidbarker • 04 октября 2025 г. в 00:39 • 108 points

ОригиналHN

#openai#generative-ai#video-generation#intellectual-property#content-moderation#user-feedback

Комментарии (131)

  • OpenAI столкнулась с юридическими угрозами от правообладателей (включая Ghibli и Nintendo) из-за генерации контента с использованием их IP, что привело к введению строгих ограничений на создание видео.
  • Компания осознала необходимость монетизации генерации видео из-за высоких вычислительных затрат и планирует внедрить плату за использование, а также рассмотреть возможность распределения доходов с правообладателями.
  • Пользователи выражают разочарование из-за резкого ужесточения ограничений, которые теперь блокируют создание контента по мотивам даже не самых известных игр и франшиз.
  • В сообществе распространено мнение, что изначальное разрешение генерации защищённого контента было осознанным PR-ходом для роста популярности, а не ошибкой.
  • Подход OpenAI к решению проблемы воспринимается многими как лицемерный, неискренний и технически сложный для реализации на практике.

Voyager – An interactive video generation model with realtime 3D reconstruction (github.com) 🔥 Горячее 💬 Длинная дискуссия

Voyager — интерактивная модель генерации RGBD-видео от Tencent Hunyuan, управляемая траекторией камеры и поддерживающая реконструкцию 3D-сцен в реальном времени.

by mingtianzhang • 03 сентября 2025 г. в 11:07 • 302 points

ОригиналHN

#tencent#3d-reconstruction#machine-learning#llm#lidar#video-generation#github

Комментарии (206)

  • Лицензия запрещает использование в ЕС, Великобритании и Южной Корее, что участники связывают с регуляторными рисками (EU AI Act).
  • Модель не полностью open-source: доступны только веса, без данных обучения.
  • Пользователи отмечают ограниченные углы обзора в демо-видео и требуют «полного 360°».
  • Минимальные требования — 60 ГБ VRAM для 540p, что делает технологию недоступной для большинства.
  • Обсуждаются потенциальные применения: от замены LiDAR до генерации игр и 3D-сцен из фото/видео.

Wan – Open-source alternative to VEO 3 (github.com)

Wan2.2 — открытая генеративная модель для создания видео.
Репозиторий: Wan-Video/Wan2.2

  • Масштабируемость — работает от локального GPU до кластеров.
  • Качество — высокое разрешение, плавность, точность текста.
  • Гибкость — обучение, дообучение, инференс через PyTorch.
  • Форматы — MP4, GIF, WebM; выбор fps и разрешения.
  • API & CLI — простой запуск: wan2.2 generate --prompt "...".
  • Docker — готовый образ wanvideo/wan2.2:latest.
  • Лицензия Apache 2.0, коммерческое использование разрешено.

by modinfo • 17 августа 2025 г. в 05:00 • 190 points

ОригиналHN

#pytorch#docker#apache-2.0#gpu#nvidia#video-generation#lora#moe-architecture#github

Комментарии (31)

  • Wan2GP позволяет запускать модели Wan 2.1/2.2 на видеокартах всего 6 ГБ VRAM (Nvidia) и объединяет десятки вариантов моделей с LoRA-ускорением и активным Discord-сообществом.
  • Пользователи хвалят качество Wan 2.2: 27B «MoE»-архитектура (два 14B эксперта для разных уровней детализации), 5B-модель выдаёт 720p24 на RTX 4090/24 ГБ или двух 12 ГБ GPU.
  • Генерация 4-секундного видео Image-to-Video занимает 3–4 мин, апскейл до 4K — ещё 2–3 мин; изображения рендерятся за 20–40 с.
  • Участники спрашивают о бенчмарках видео-моделей, UI-обёртке «Obi» и высокопроизводительных инференс-фреймворках вроде vLLM для видео.
  • Некоторые критикуют название «Wan», спорят о корректности термина MoE и отмечают, что Replicate-версия дешевле и проще в использовании.

Genie 3: A new frontier for world models (deepmind.google) 🔥 Горячее 💬 Длинная дискуссия

Genie 3 — возможности:

Ниже — записи реальных взаимодействий с Genie 3.

Моделирование физических свойств мира

Передает природные явления (вода, свет) и сложные взаимодействия среды.

  • Промпт: Вид от первого лица — робот с шинами едет по вулканическому полю, избегая лавовых луж. Виден дым и потоки лавы, синее небо, вокруг лишь черные скалы.
  • Промпт: Вождение гидроцикла во время фестиваля огней.
  • Промпт: Прогулка по набережной во Флориде во время шторма: ветер гнет пальмы, волны хлещут через перила, сильный дождь, плащ-дождевик, впереди мост.
  • Промпт: Быстрая съемка за медузой в темных глубинах между каньонами с мидиями и крабами; вдали гидротермальные источники с ярко-синим дымом.
  • Промпт: Пилот вертолета маневрирует над прибрежным утесом с водопадом.

Симуляция природного мира

Генерирует экосистемы: поведение животных и детальную растительность.

  • Промпт: Забег вдоль ледникового озера, лесные тропы, брод через горные ручьи среди заснеженных вершин и сосен, богатая фауна.
  • Промпт: Реальная трекинг-съемка: заплыв через темные океанские каньоны среди огромной стаи медуз, биолюминесценция.
  • Промпт: Фотореалистичный дзен-сад на рассвете: белый песок с узорами, пруд с лилиями, камни с мхом, каменный фонарь и кэрн, забор из бамбука.
  • Промпт: Густая листва с каплями воды и пятнистым светом; влажный, спокойный воздух, мягко размытый фон.

Моделирование анимации и вымысла

Создает фантастические сцены и выразительных персонажей.

  • Промпт: Яркий 3D-стиль: пушистое существо с ушами, как у овчарки, мчится по радужному мосту среди парящих островов и светящейся флоры; свет теплый и радостный.
  • Промпт: Ящерица в стиле оригами.
  • Промпт: Широкий план: зачарованный лес в сумерках; игрок управляет крупной светлячком, пролетающим сквозь крону с пестрой листвой.

by bradleyg223 • 05 августа 2025 г. в 14:08 • 1462 points

ОригиналHN

#deepmind#google#video-generation#vae#real-time-rendering#world-models#computer-graphics#machine-learning

Комментарии (481)

  • Обсуждение посвящено Genie 3 от Google DeepMind: впечатляющая реалтайм-генерация интерактивных миров (720p) с устойчивостью во времени, но крайне мало технических деталей и доступа для публики.
  • Технические спекуляции: возможен видео-генеративный подход с 4x временным даунскейлом в VAE и управляющими сигналами (направление/угол обзора), заметны артефакты (скачки текстур, проблемы с текстом, редкие люди в сценах).
  • Часть сообщества критикует отсутствие статьи/отчета и закрытость веса модели; другие отмечают, что прогресс согласуется с намёками Demis и является эмерджентным эффектом масштабирования.
  • Споры о подходе: «мир-модель как видео» vs классический графический конвейер (меши/анимации/рендер), вопрос о пригодности для игр, VR/XR и робототехники; звучит запрос на VR-вывод и интеграцию со звуком.
  • Реакции варьируются от восторга и ощущения «холодека»/диссоциации до обеспокоенности влиянием на творчество и смыслы; некоторые видят в этом шаг к embodied AI и бесконечному синтетическому датасету.
  • Практические ожидания: ускорение прототипирования в геймдеве, обучение навыкам через ИИ-NPC и терапию; скептики считают демо «бережным» и сомневаются в масштабируемой пользе без перехода к 3D-структурам.
  • Вопросы остаются: архитектура, вычислительные затраты, форматы объектов/интеграция, сроки публичного доступа и реальная применимость за пределами демонстраций.