Hacker News Digest

Тег: #mp3

Постов: 2

Neutts-air – Open-source, on device TTS (github.com)

Neuphonic выпустил open-source TTS-модель Neutts-air, которая работает полностью на устройстве и не требует подключения к облаку. Модель обучена на 24-часовом датасете с 44 кГц и поддерживает 8- и 16-битные WAV-файлы. Поддерживает 1100 голосовых языков, включая русский, и может синтезировать речь с высокой естественностью. Поддерживает SSML и может контролировать скорость, высоту и громкость. Поддерживает разные форматы вывода, включая WAV и MP3.

by nopelynopington • 06 октября 2025 г. в 09:06 • 78 points

ОригиналHN

#tts#open-source#on-device#ssml#wav#mp3#android#github

Комментарии (19)

  • Пользователи жалуются на ограничения по длине текста и обсуждают, что модель обрезает длинные тексты раньше заявленного лимита в 30 секунд.
  • Сообщество подмечает, что большинство новых TTS-моделей не раскрывают архитектуру и тренировочные данные, что вызывает подозрение в "переупаковке" существующих open-source решений.
  • Наблюдается интерес к появлению open-source TTS-приложения для Android, которое могло бы конкурировать с коммерческими решениями.
  • Участники обсуждают, что текущие open-source TTS-модели не предоставляют достаточной информации о своей архитектуре и тренировочных данных, что затрудняет оценку их уникальности и качества.

Leonardo Chiariglione – Co-founder of MPEG (leonardo.chiariglione.org) 💬 Длинная дискуссия

  • Леонардо — бывший исследователь видеокодирования, ветеран стандартизации и предприниматель.

  • Образование: классическая школа (Лицей Салезиан Вальсаличе), инженер-электронщик (Политех Турина, MSc), межкультурный опыт (Токийский университет, PhD по электрическим коммуникациям).

  • Христианско-католическое воспитание сформировало убеждение о миссии, выходящей за личные интересы. В начале карьеры, когда цифровые медиа только зрели, видел свою миссию в разработке интероперабельных технологий цифровых медиа — на благо общества и для использования индустрией.

  • Нужна была организация, создающая стандарты цифровых медиа, чтобы потребители могли бесшовно общаться, а индустрия работать на глобальном рынке совместимых продуктов и сервисов. Так в 1987 была задумана, а в 1988 создана группа Moving Picture Experts Group (MPEG).

  • Через четыре года MPEG запустила цифровую эру: MPEG‑1 для интерактивных медиа (Video CD), цифрового аудио (MP2) и персональной музыки (MP3). С середины 1990‑х MPEG‑2 стал инфраструктурой для цифрового ТВ по кабелю, спутнику, эфирным сетям и на DVD. MPEG‑4 (первый релиз — 1998) открыл путь интернет‑дистрибуции медиа. Далее последовали семейства стандартов: MPEG‑7, MPEG‑21, MPEG‑A, MPEG‑H, MPEG‑I и др.

  • Я председательствовал в группе, добившись более 200 стандартов, роста участия в 20 раз (с 29 экспертов) и расширения тематики от медиа к геномике — «рожденным цифровыми» данным мира.

  • 2 июня 2020 я закрыл MPEG и ушел, так как «темные силы» перехватили управление. Ещё до этого у MPEG иссяк импульс — технологически и бизнес‑wise.

by eggspurt • 07 августа 2025 г. в 10:09 • 208 points

ОригиналHN

#mpeg#h.264#h.265#mp3#av1#dcvc-rt#video-coding#patents#frand#standards

Комментарии (197)

  • Участники обвиняют MPEG в «патентной мафии»: десятилетиями тормозили отрасль патентами на h.264/265, MP3 и др.
  • Основатель MPEG Леонардо Чьярильоне жалуется на «тёмные силы», но критики считают это лицемерием: он сам годами защищал FRAND-роялти.
  • Пока MPEG задыхалась в лицензиях, открытые кодеки (AV1, даже несмотря на спорные патенты) и перспективные AI-кодеки (DCVC-RT и др.) начали вытеснять старые стандарты.
  • Некоторые считают, что разработка кодеков дорога (сотни инженеров и кластеры CPU), но без патентных оков прогресс мог бы быть быстрее.