Тег: #text-to-speech — Hacker News Digest

VibeVoice: A Frontier Open-Source Text-to-Speech Model (microsoft.github.io) 🔥 Горячее

VibeVoice — открытая TTS-модель для создания экспрессивных многоспикерных диалогов (подкасты, интервью).

Токенизаторы акустический и семантический работают на рекордно низкой частоте 7,5 Гц, сохраняя качество и ускоряя длинные последовательности.
Архитектура: LLM понимает контекст и диалог, диффузионный «голова» добавляет детали.
Пределы: до 90 минут, до 4 голосов, поддержка фоновой музыки, спонтанных эмоций и пения.
Кросс-язычность: свободный перевод с/на китайский и английский.

by lastdong • 03 сентября 2025 г. в 10:44 • 406 points

Качество VibeVoice высокое, но мужские голоса часто звучат роботизированно и попадают в «зловещую долину».
Женские образцы заметно реалистичнее; демо-сайт почти всегда начинает с них.
Лучшие альтернативы: HiggsAudio (быстрее и чище), Kokoro (для слабых GPU) и Chatterbox.
Модель хорошо клонирует голос и эмоции, поддерживает английский, китайский и индийские акценты, но не SSML и редкие языки.
Репозиторий временно закрыт, лицензия MIT, но данных обучения не раскрыто.

lue — терминальный ридер ePub с TTS.

by superstarryeyes • 16 августа 2025 г. в 18:00 • 79 points

Пользователи тестируют новый инструмент lue для чтения/озвучки epub в терминале: TTS-часть ценят за «просто закинул и слушай», но чтение в моноширинном шрифте вызывает сомнения.
Основная боль — внешние зависимости (espeak, antiword) и требование Python ≥ 3.10; автор уже пообещал поднять минимальную версию.
Прогресс и состояние озвучки сохраняются в системных логах; серверный запуск позволит синхронизировать закладки.
Сноски, колонтитулы и служебные символы вырезаются, чтобы не мешать TTS; возможно появится опция оставлять их для обычного чтения.
Автор собрал адаптеры для Kitten TTS, Gemini и др., но пока не опубликовал их, размышляя о выделении отдельного репозитория.
Вопросы о запуске из Termux/Android и безопасности кода пока без ответа; автор приветствует аудит и обратную связь.