VibeVoice: A Frontier Open-Source Text-to-Speech Model

VibeVoice — открытая TTS-модель для создания экспрессивных многоспикерных диалогов (подкасты, интервью).

Токенизаторы акустический и семантический работают на рекордно низкой частоте 7,5 Гц, сохраняя качество и ускоряя длинные последовательности.
Архитектура: LLM понимает контекст и диалог, диффузионный «голова» добавляет детали.
Пределы: до 90 минут, до 4 голосов, поддержка фоновой музыки, спонтанных эмоций и пения.
Кросс-язычность: свободный перевод с/на китайский и английский.

Качество VibeVoice высокое, но мужские голоса часто звучат роботизированно и попадают в «зловещую долину».
Женские образцы заметно реалистичнее; демо-сайт почти всегда начинает с них.
Лучшие альтернативы: HiggsAudio (быстрее и чище), Kokoro (для слабых GPU) и Chatterbox.
Модель хорошо клонирует голос и эмоции, поддерживает английский, китайский и индийские акценты, но не SSML и редкие языки.
Репозиторий временно закрыт, лицензия MIT, но данных обучения не раскрыто.