VibeVoice: A Frontier Open-Source Text-to-Speech Model
VibeVoice — открытая TTS-модель для создания экспрессивных многоспикерных диалогов (подкасты, интервью).
- Токенизаторы акустический и семантический работают на рекордно низкой частоте 7,5 Гц, сохраняя качество и ускоряя длинные последовательности.
- Архитектура: LLM понимает контекст и диалог, диффузионный «голова» добавляет детали.
- Пределы: до 90 минут, до 4 голосов, поддержка фоновой музыки, спонтанных эмоций и пения.
- Кросс-язычность: свободный перевод с/на китайский и английский.