Neutts-air – Open-source, on device TTS
Neuphonic выпустил open-source TTS-модель Neutts-air, которая работает полностью на устройстве и не требует подключения к облаку. Модель обучена на 24-часовом датасете с 44 кГц и поддерживает 8- и 16-битные WAV-файлы. Поддерживает 1100 голосовых языков, включая русский, и может синтезировать речь с высокой естественностью. Поддерживает SSML и может контролировать скорость, высоту и громкость. Поддерживает разные форматы вывода, включая WAV и MP3.
Комментарии (19)
- Пользователи жалуются на ограничения по длине текста и обсуждают, что модель обрезает длинные тексты раньше заявленного лимита в 30 секунд.
- Сообщество подмечает, что большинство новых TTS-моделей не раскрывают архитектуру и тренировочные данные, что вызывает подозрение в "переупаковке" существующих open-source решений.
- Наблюдается интерес к появлению open-source TTS-приложения для Android, которое могло бы конкурировать с коммерческими решениями.
- Участники обсуждают, что текущие open-source TTS-модели не предоставляют достаточной информации о своей архитектуре и тренировочных данных, что затрудняет оценку их уникальности и качества.
Show HN: I made a generative online drum machine with ClojureScript
Dopeloop.ai — онлайн-барабанная машина для быстрого создания битов.
16 кнопок = 16 шагов. Жми, слышишь — сохраняй.
Библиотека сэмплов: хип-хоп, трап, хаус, драм-н-бейс.
Регулируй темп и громкость, мутируй треки в один клик.
Экспорт WAV или ссылка для шеринга.
Без установки, бесплатно, работает в браузере.
Комментарии (29)
- Движок построен на декларативном аудио-графе (virtual-audio-graph), упрощающем Web Audio API; советуют дополнительно глянуть AudioWorklet.
- UX: кнопку Play просят сделать заметнее, добавить подсветку каждой четвёртой колонки и переключатель цвета фона под n-е доли.
- При генерации нового сэмпла во время воспроизведения нужен «тихий» режим замены, чтобы не сбивать ритм.
- Просят слайдер «вариативности» и возможность задавать нестандартные размеры тактов (например, 2-2-2-3).
- FX хотят, чтобы эффект оставался включённым и копировался в новые ячейки до ручного выключения.
- Интерфейс сделан на ClojureScript (через Reagent/React), код части аудио-утилит выложен: chr15m/cljs-dopeloop.