VibeVoice: A Frontier Open-Source Text-to-Speech Model 🔥 Горячее
VibeVoice — открытая TTS-модель для создания экспрессивных многоспикерных диалогов (подкасты, интервью).
- Токенизаторы акустический и семантический работают на рекордно низкой частоте 7,5 Гц, сохраняя качество и ускоряя длинные последовательности.
- Архитектура: LLM понимает контекст и диалог, диффузионный «голова» добавляет детали.
- Пределы: до 90 минут, до 4 голосов, поддержка фоновой музыки, спонтанных эмоций и пения.
- Кросс-язычность: свободный перевод с/на китайский и английский.
Комментарии (150)
- Качество VibeVoice высокое, но мужские голоса часто звучат роботизированно и попадают в «зловещую долину».
- Женские образцы заметно реалистичнее; демо-сайт почти всегда начинает с них.
- Лучшие альтернативы: HiggsAudio (быстрее и чище), Kokoro (для слабых GPU) и Chatterbox.
- Модель хорошо клонирует голос и эмоции, поддерживает английский, китайский и индийские акценты, но не SSML и редкие языки.
- Репозиторий временно закрыт, лицензия MIT, но данных обучения не раскрыто.
Show HN: Lue – Terminal eBook Reader with Text-to-Speech
lue — терминальный ридер ePub с TTS.
- Основное: читает ePub, воспроизводит речью, работает в консоли.
- Управление: клавиши Vim-стиля, навигация по главам, закладки.
- Настройка: темы, голоса, скорость, горячие клавиши.
- Установка:
cargo install lueилиbrew install lue. - Системы: Linux, macOS, Windows.
- Лицензия: MIT.
Комментарии (22)
- Пользователи тестируют новый инструмент lue для чтения/озвучки epub в терминале: TTS-часть ценят за «просто закинул и слушай», но чтение в моноширинном шрифте вызывает сомнения.
- Основная боль — внешние зависимости (espeak, antiword) и требование Python ≥ 3.10; автор уже пообещал поднять минимальную версию.
- Прогресс и состояние озвучки сохраняются в системных логах; серверный запуск позволит синхронизировать закладки.
- Сноски, колонтитулы и служебные символы вырезаются, чтобы не мешать TTS; возможно появится опция оставлять их для обычного чтения.
- Автор собрал адаптеры для Kitten TTS, Gemini и др., но пока не опубликовал их, размышляя о выделении отдельного репозитория.
- Вопросы о запуске из Termux/Android и безопасности кода пока без ответа; автор приветствует аудит и обратную связь.