Hacker News Digest

Тег: #multimodal-ai

Постов: 2

Ovi: Twin backbone cross-modal fusion for audio-video generation (github.com) 🔥 Горячее

В предоставленном фрагменте отсутствует содержательная информация о репозитории character-ai/Ovi. Это лишь навигационное меню и общие элементы интерфейса GitHub без описания самого проекта. Нет данных о функциональности, целях или особенностях Ovi.

Для создания содержательного пересказа требуется информация из README-файла или описания репозитория, которая отсутствует в данном фрагменте. Без этих деталей невозможно определить, представляет ли собой Ovi инструмент, библиотеку, приложение или что-то иное от character-ai.

by montyanderson • 22 октября 2025 г. в 19:42 • 300 points

ОригиналHN

#generative-ai#deepfake#multimodal-ai#ai-ethics#ai-video-generation#github

Комментарии (110)

  • Обсуждение вращается вокруг быстрого прогресса в генеративном ИИ: отдельные инструменты сливаются в единое решение, и теперь можно запускать модели локально.
  • Участники обсуждают, как быстро ИИ-видео может дойти до «блокбастера» и как это повлияет на индустрию.
  • Поднимаются вопросы этики: deep-fake, влияние на детей, коммерческое использование и монетизация.
  • Участники также обсуждают, что влияние ИИ на креативную индустрию может быть негативным для художников и сценаристов.
  • И наконец, обсуждается, что если ИИ сможет создавать полнометражные фильмы, то это может привести к концу традиционного кино.

Qwen3-Omni: Native Omni AI model for text, image and video (github.com) 🔥 Горячее

Команда Alibaba Cloud представила Qwen3-Omni — первую в мире модель, способную одновременно обрабатывать текст, аудио, изображения и видео, а также генерировать речь в реальном времени. Она работает как единая end-to-end система, без необходимости разделения задач на отдельные модули, что повышает эффективность и снижает задержки.

Модель поддерживает мультимодальный ввод и вывод, включая распознавание объектов на видео, анализ аудиодорожек и синтез голоса с естественной интонацией. Это открывает возможности для создания более интерактивных приложений, таких как голосовые ассистенты с визуальным контекстом или системы автоматизированного контент-модерации.

by meetpateltech • 22 сентября 2025 г. в 17:50 • 522 points

ОригиналHN

#alibaba-cloud#multimodal-ai#natural-language-processing#computer-vision#speech-recognition#speech-synthesis#real-time-processing#gpu#github#llm

Комментарии (132)

  • Обсуждается мультимодальная модель Qwen3 с поддержкой голосового ввода/вывода, переводом в реальном времени и впечатляющими демонстрациями.
  • Участники отмечают её доступность для локального запуска (70GB весов) и потенциал для интеграции в умный дом и другие приложения.
  • Поднимаются вопросы о производительности на разных языках, "нативной поддержке видео" и сравнении с закрытыми моделями типа Gemini.
  • Высказываются опасения о возможном доминировании Китая на рынке открытых AI-моделей и реакции на это со стороны США.
  • Обсуждаются технические аспекты: необходимое железо (GPU), квантование, портирование на macOS и стоимость использования.