Hacker News Digest

Тег: #text-to-speech

Постов: 2

VibeVoice: A Frontier Open-Source Text-to-Speech Model (microsoft.github.io) 🔥 Горячее

VibeVoice — открытая TTS-модель для создания экспрессивных многоспикерных диалогов (подкасты, интервью).

  • Токенизаторы акустический и семантический работают на рекордно низкой частоте 7,5 Гц, сохраняя качество и ускоряя длинные последовательности.
  • Архитектура: LLM понимает контекст и диалог, диффузионный «голова» добавляет детали.
  • Пределы: до 90 минут, до 4 голосов, поддержка фоновой музыки, спонтанных эмоций и пения.
  • Кросс-язычность: свободный перевод с/на китайский и английский.

by lastdong • 03 сентября 2025 г. в 10:44 • 406 points

ОригиналHN

#text-to-speech#open-source#llm#diffusion#python#mit

Комментарии (150)

  • Качество VibeVoice высокое, но мужские голоса часто звучат роботизированно и попадают в «зловещую долину».
  • Женские образцы заметно реалистичнее; демо-сайт почти всегда начинает с них.
  • Лучшие альтернативы: HiggsAudio (быстрее и чище), Kokoro (для слабых GPU) и Chatterbox.
  • Модель хорошо клонирует голос и эмоции, поддерживает английский, китайский и индийские акценты, но не SSML и редкие языки.
  • Репозиторий временно закрыт, лицензия MIT, но данных обучения не раскрыто.

Show HN: Lue – Terminal eBook Reader with Text-to-Speech (github.com)

lue — терминальный ридер ePub с TTS.

  • Основное: читает ePub, воспроизводит речью, работает в консоли.
  • Управление: клавиши Vim-стиля, навигация по главам, закладки.
  • Настройка: темы, голоса, скорость, горячие клавиши.
  • Установка: cargo install lue или brew install lue.
  • Системы: Linux, macOS, Windows.
  • Лицензия: MIT.

by superstarryeyes • 16 августа 2025 г. в 18:00 • 79 points

ОригиналHN

#rust#epub#text-to-speech#vim#terminal#python#mit#cross-platform#espeak#github

Комментарии (22)

  • Пользователи тестируют новый инструмент lue для чтения/озвучки epub в терминале: TTS-часть ценят за «просто закинул и слушай», но чтение в моноширинном шрифте вызывает сомнения.
  • Основная боль — внешние зависимости (espeak, antiword) и требование Python ≥ 3.10; автор уже пообещал поднять минимальную версию.
  • Прогресс и состояние озвучки сохраняются в системных логах; серверный запуск позволит синхронизировать закладки.
  • Сноски, колонтитулы и служебные символы вырезаются, чтобы не мешать TTS; возможно появится опция оставлять их для обычного чтения.
  • Автор собрал адаптеры для Kitten TTS, Gemini и др., но пока не опубликовал их, размышляя о выделении отдельного репозитория.
  • Вопросы о запуске из Termux/Android и безопасности кода пока без ответа; автор приветствует аудит и обратную связь.