Qwen3-Omni: Native Omni AI model for text, image and video
Команда Alibaba Cloud представила Qwen3-Omni — первую в мире модель, способную одновременно обрабатывать текст, аудио, изображения и видео, а также генерировать речь в реальном времени. Она работает как единая end-to-end система, без необходимости разделения задач на отдельные модули, что повышает эффективность и снижает задержки.
Модель поддерживает мультимодальный ввод и вывод, включая распознавание объектов на видео, анализ аудиодорожек и синтез голоса с естественной интонацией. Это открывает возможности для создания более интерактивных приложений, таких как голосовые ассистенты с визуальным контекстом или системы автоматизированного контент-модерации.