Hacker News Digest

03 сентября 2025 г. в 10:44 • microsoft.github.io • ⭐ 406 • 💬 150

OriginalHN

#text-to-speech#open-source#llm#diffusion#python#mit

VibeVoice: A Frontier Open-Source Text-to-Speech Model

VibeVoice — открытая TTS-модель для создания экспрессивных многоспикерных диалогов (подкасты, интервью).

  • Токенизаторы акустический и семантический работают на рекордно низкой частоте 7,5 Гц, сохраняя качество и ускоряя длинные последовательности.
  • Архитектура: LLM понимает контекст и диалог, диффузионный «голова» добавляет детали.
  • Пределы: до 90 минут, до 4 голосов, поддержка фоновой музыки, спонтанных эмоций и пения.
  • Кросс-язычность: свободный перевод с/на китайский и английский.