Hacker News Digest

22 сентября 2025 г. в 17:50 • github.com • ⭐ 522 • 💬 132

OriginalHN

#alibaba-cloud#multimodal-ai#natural-language-processing#computer-vision#speech-recognition#speech-synthesis#real-time-processing#gpu#github#llm

Qwen3-Omni: Native Omni AI model for text, image and video

Команда Alibaba Cloud представила Qwen3-Omni — первую в мире модель, способную одновременно обрабатывать текст, аудио, изображения и видео, а также генерировать речь в реальном времени. Она работает как единая end-to-end система, без необходимости разделения задач на отдельные модули, что повышает эффективность и снижает задержки.

Модель поддерживает мультимодальный ввод и вывод, включая распознавание объектов на видео, анализ аудиодорожек и синтез голоса с естественной интонацией. Это открывает возможности для создания более интерактивных приложений, таких как голосовые ассистенты с визуальным контекстом или системы автоматизированного контент-модерации.