Тег: #tts — Hacker News Digest

Omnilingual ASR: Advancing automatic speech recognition for 1600 languages (ai.meta.com)

—

by jean- • 10 ноября 2025 г. в 18:10 • 139 points

#automatic-speech-recognition #asr #tts #nlp #llm #meta

Комментарии (38)

Обсуждение началось с восторга по поводу модели Omnilingual ASR, но быстро перешло к вопросам о точности, языковых ограничениях и этичности оценки "уязвимости" языков.
Участники обсудили, что модель не работает с тональными языками, неясно, как она справляется с языками, имеющими мало цифровых ресурсов, и почему оценка "исчезающих" языков выглядит подозрительной.
Разговор затронул требования к данным для обучения TTS, возможность создания TTS из ASR-модели, а также то, что в демо-версии TTS не используются SSL-модели.
Также обсуждались вопросы лицензии и происхождения кода, а также то, что демо-версия может быть закрытым исходником.
В конце обсуждение сместилось к тому, что для добавления нового языка требуется лишь "несколько примеров" и что это может быть использовано для создания TTS-модели.

Neural audio codecs: how to get audio into LLMs (kyutai.org) 🔥 Горячее

Текущие речевые LLM работают как обертка: преобразуют речь в текст, обрабатывают его и затем синтезируют ответ обратно в речь, что не позволяет улавливать нюансы интонации, сарказма или эмоций. Даже передовые модели вроде Gemini или ChatGPT с продвинутым голосовым режимом не могут ответить на вопрос о высоте голоса, демонстрируя отставание речевых моделей от текстовых. Проблема в том, что за одну секунду аудио содержится десятки тысяч выборок, в отличие от нескольких слов в тексте, что делает обработку аудио значительно сложнее.

Решением являются нейроаудио-кодеки, такие как Mimi от Kyutai, которые сжимают аудио в более управляемые дискретные токены, аналогично токенизации текста. Вместо предсказания аудио выборка за выборкой, как в ранних моделях вроде WaveNet, кодеки преобразуют непрерывные значения в 256 дискретных "вёдер" с помощью μ-law алгоритма. Этот подход позволяет LLM обрабатывать аудио как последовательность токенов, предсказывать продолжение и затем декодировать обратно в аудио, открывая путь к настоящему пониманию речи.

by karimf • 21 октября 2025 г. в 12:55 • 410 points

Оригинал • HN

#llm #audio-processing #neural-networks #tokenization #audio-codecs #wavenet #law #kyutai #tts #speech-recognition

Комментарии (115)

Обсуждение охватывает широкий спектр тем: от токенизации аудио до фундаментальных вопросов о том, как моделируются речь и звук, и почему это важно для будущего ИИ.
Участники обсуждают, что вместо попыток заставить модели распознавать и генерировать речь, мы должны сосредоточиться на создании моделей, которые могут работать с непрерывными сигналами и, таким образом, избегая необходимости в токенизации аудио.
Обсуждается, что вместо того, чтобы полагаться на существующие аудио кодеки, такие как MP3, мы должны развивать нейрональные кодеки, которые могут быть обучены вместе с моделью и, таким образом, позволяя ей напрямую работать с компактным, дискретным представлением аудио.
Участники также обсуждают, что вместо того, чтобы пытаться обучить модель на транскрибированном тексте, мы должны использовать аудио-ориентированные данные, которые включают в себе всю информацию, которая теряется при транскрибции. Это может включать в себе обучение модели на транскрибированном тексте, который может быть использован для тренировки TTS-моделей.

Neutts-air – Open-source, on device TTS (github.com)

Neuphonic выпустил open-source TTS-модель Neutts-air, которая работает полностью на устройстве и не требует подключения к облаку. Модель обучена на 24-часовом датасете с 44 кГц и поддерживает 8- и 16-битные WAV-файлы. Поддерживает 1100 голосовых языков, включая русский, и может синтезировать речь с высокой естественностью. Поддерживает SSML и может контролировать скорость, высоту и громкость. Поддерживает разные форматы вывода, включая WAV и MP3.

by nopelynopington • 06 октября 2025 г. в 09:06 • 78 points

Оригинал • HN

#tts #open-source #on-device #ssml #wav #mp3 #android #github

Комментарии (19)

Пользователи жалуются на ограничения по длине текста и обсуждают, что модель обрезает длинные тексты раньше заявленного лимита в 30 секунд.
Сообщество подмечает, что большинство новых TTS-моделей не раскрывают архитектуру и тренировочные данные, что вызывает подозрение в "переупаковке" существующих open-source решений.
Наблюдается интерес к появлению open-source TTS-приложения для Android, которое могло бы конкурировать с коммерческими решениями.
Участники обсуждают, что текущие open-source TTS-модели не предоставляют достаточной информации о своей архитектуре и тренировочных данных, что затрудняет оценку их уникальности и качества.

Abogen – Generate audiobooks from EPUBs, PDFs and text (github.com) 🔥 Горячее

abogen — консольный инструмент, превращающий EPUB, PDF и обычный текст в аудиокниги с синхронными субтитрами.

Возможности

Форматы: EPUB, PDF, TXT.
TTS-движки: Coqui TTS, OpenAI TTS, Edge TTS, Google TTS.
Субтитры: SRT/VTT, привязанные к словам.
Языки: 40+, включая русский.
CLI: abogen book.epub --voice en-US-AriaNeural --output book.m4b.

Установка

pip install abogen

Использование

abogen mybook.pdf --voice ru-RU-SvetlanaNeural --format m4b

Ссылки

GitHub
PyPI

by mzehrer • 10 августа 2025 г. в 05:56 • 315 points

Оригинал • HN

#python #cli #tts #epub #pdf #text-processing #coqui-tts #openai #google-cloud #github

Комментарии (74)

Пользователи обсуждают Abogen — GUI-обёртку над Kokoro TTS для генерации аудиокниг из текста.
Качество голоса признаётся «ровным», но без эмоций и актёрской игры; для художественных книг это критично.
Отмечены проблемы: долгие предложения обрезаются, «Mr.» читается с лишней паузой, видео-демо без звука в Firefox.
Кто-то хочет API и автоматический пайплайн Calibre-Web → Abogen → Audiobookshelf, другие — формат DAISY и «голос Моргана Фримена».
Итог: инструмент годен для личного использования и доступности, но пока не дотягивает до коммерческих аудиокниг.

Show HN: Kitten TTS – 25MB CPU-Only, Open-Source TTS Model (github.com) 🔥 Горячее 💬 Длинная дискуссия

State-of-the-art модель TTS до 25 МБ 😻
Пропустить к содержимому
Навигация, вход, настройки внешнего вида
Продукты: Copilot, Spark, Models, Advanced Security, Actions, Codespaces, Issues, Code Review, Discussions, Code Search
Исследовать: Почему GitHub, все функции, документация, навыки, блог
Решения по размеру компании: Enterprise, для команд, стартапов, НКО
По задачам: DevSecOps, DevOps, CI/CD и др.
По индустриям: здравоохранение, финансы, производство, гос сектор
Ресурсы: темы (ИИ, DevOps, безопасность, разработка), курсы, события, книги, истории клиентов, партнёры, аналитика
Open Source: Sponsors, ReadME Project
Репозитории: Темы, Тренды, Коллекции
Enterprise: платформа, допы — Advanced Security, Copilot for business, поддержка
Цены
Поиск кода и репозиториев, советы по синтаксису
Обратная связь (с email), отправка/отмена
Сохранённые поиски: создание/управление, документация по синтаксису
Вход/регистрация
Сообщения о перезагрузке сессии и переключении аккаунтов
KittenML/KittenTTS (публичный), уведомления, форки

by divamgupta • 06 августа 2025 г. в 05:04 • 959 points

Оригинал • HN

#tts #opensource #machinelearning #llm #python #onnx #whisper #f5-tts #piper-tts #github

Комментарии (354)

KittenTTS (25 МБ, Apache-2.0) генерирует речь оффлайн на CPU, но звучит механически и путает цифры.
На i9-14900HX 225 символов синтезируются за 5,5× реального времени, но латентность ~315 мс.
Установка требует кучи зависимостей, поэтому «25 МБ» быстро превращаются в гигабайты.
Для качественной речи пользователи рекомендуют F5-TTS, Fish-Speech или Piper-TTS; для STT — Whisper.
Сообщество просит ONNX-порт, обучение на других языках и открытые данные.