Ovi: Twin backbone cross-modal fusion for audio-video generation 🔥 Горячее
В предоставленном фрагменте отсутствует содержательная информация о репозитории character-ai/Ovi. Это лишь навигационное меню и общие элементы интерфейса GitHub без описания самого проекта. Нет данных о функциональности, целях или особенностях Ovi.
Для создания содержательного пересказа требуется информация из README-файла или описания репозитория, которая отсутствует в данном фрагменте. Без этих деталей невозможно определить, представляет ли собой Ovi инструмент, библиотеку, приложение или что-то иное от character-ai.
Комментарии (110)
- Обсуждение вращается вокруг быстрого прогресса в генеративном ИИ: отдельные инструменты сливаются в единое решение, и теперь можно запускать модели локально.
- Участники обсуждают, как быстро ИИ-видео может дойти до «блокбастера» и как это повлияет на индустрию.
- Поднимаются вопросы этики: deep-fake, влияние на детей, коммерческое использование и монетизация.
- Участники также обсуждают, что влияние ИИ на креативную индустрию может быть негативным для художников и сценаристов.
- И наконец, обсуждается, что если ИИ сможет создавать полнометражные фильмы, то это может привести к концу традиционного кино.
Qwen3-Omni: Native Omni AI model for text, image and video 🔥 Горячее
Команда Alibaba Cloud представила Qwen3-Omni — первую в мире модель, способную одновременно обрабатывать текст, аудио, изображения и видео, а также генерировать речь в реальном времени. Она работает как единая end-to-end система, без необходимости разделения задач на отдельные модули, что повышает эффективность и снижает задержки.
Модель поддерживает мультимодальный ввод и вывод, включая распознавание объектов на видео, анализ аудиодорожек и синтез голоса с естественной интонацией. Это открывает возможности для создания более интерактивных приложений, таких как голосовые ассистенты с визуальным контекстом или системы автоматизированного контент-модерации.
Комментарии (132)
- Обсуждается мультимодальная модель Qwen3 с поддержкой голосового ввода/вывода, переводом в реальном времени и впечатляющими демонстрациями.
- Участники отмечают её доступность для локального запуска (70GB весов) и потенциал для интеграции в умный дом и другие приложения.
- Поднимаются вопросы о производительности на разных языках, "нативной поддержке видео" и сравнении с закрытыми моделями типа Gemini.
- Высказываются опасения о возможном доминировании Китая на рынке открытых AI-моделей и реакции на это со стороны США.
- Обсуждаются технические аспекты: необходимое железо (GPU), квантование, портирование на macOS и стоимость использования.