Hacker News Digest

Тег: #speech-recognition

Постов: 6

Neural audio codecs: how to get audio into LLMs (kyutai.org) 🔥 Горячее

Текущие речевые LLM работают как обертка: преобразуют речь в текст, обрабатывают его и затем синтезируют ответ обратно в речь, что не позволяет улавливать нюансы интонации, сарказма или эмоций. Даже передовые модели вроде Gemini или ChatGPT с продвинутым голосовым режимом не могут ответить на вопрос о высоте голоса, демонстрируя отставание речевых моделей от текстовых. Проблема в том, что за одну секунду аудио содержится десятки тысяч выборок, в отличие от нескольких слов в тексте, что делает обработку аудио значительно сложнее.

Решением являются нейроаудио-кодеки, такие как Mimi от Kyutai, которые сжимают аудио в более управляемые дискретные токены, аналогично токенизации текста. Вместо предсказания аудио выборка за выборкой, как в ранних моделях вроде WaveNet, кодеки преобразуют непрерывные значения в 256 дискретных "вёдер" с помощью μ-law алгоритма. Этот подход позволяет LLM обрабатывать аудио как последовательность токенов, предсказывать продолжение и затем декодировать обратно в аудио, открывая путь к настоящему пониманию речи.

by karimf • 21 октября 2025 г. в 12:55 • 410 points

ОригиналHN

#llm#audio-processing#neural-networks#tokenization#audio-codecs#wavenet#law#kyutai#tts#speech-recognition

Комментарии (115)

  • Обсуждение охватывает широкий спектр тем: от токенизации аудио до фундаментальных вопросов о том, как моделируются речь и звук, и почему это важно для будущего ИИ.
  • Участники обсуждают, что вместо попыток заставить модели распознавать и генерировать речь, мы должны сосредоточиться на создании моделей, которые могут работать с непрерывными сигналами и, таким образом, избегая необходимости в токенизации аудио.
  • Обсуждается, что вместо того, чтобы полагаться на существующие аудио кодеки, такие как MP3, мы должны развивать нейрональные кодеки, которые могут быть обучены вместе с моделью и, таким образом, позволяя ей напрямую работать с компактным, дискретным представлением аудио.
  • Участники также обсуждают, что вместо того, чтобы пытаться обучить модель на транскрибированном тексте, мы должны использовать аудио-ориентированные данные, которые включают в себе всю информацию, которая теряется при транскрибции. Это может включать в себе обучение модели на транскрибированном тексте, который может быть использован для тренировки TTS-моделей.

How AI hears accents: An audible visualization of accent clusters (accent-explorer.boldvoice.com)

Исследователи обучили модель для идентификации акцентов, используя 25 тысяч часов английской речи. Теперь можно услышать, как ИИ «слышит» разные акценты, преобразуя их в единый нейтральный голос. Это позволяет сравнивать акценты, скрывая личные особенности голосов. Например, испанский и итальянский акценты оказались рядом, что ожидаемо из-за схожести языков. Интересно, что ирландский акцент ближе к американскому, чем британский.

by ilyausorov • 14 октября 2025 г. в 16:07 • 244 points

ОригиналHN

#llm#machine-learning#speech-recognition#natural-language-processing#data-bias

Комментарии (113)

  • Обсуждение охватывает широкий спектр тем: от трудностей распознавания акцентов до визуализации кластеров акцентов и их влияния на обучение моделей.
  • Участники делятся личным опытом, включая то, как их собственные акценты были распознаны и интерпретированы.
  • Обсуждаются ограничения и предвзятость в данных, используемых для обучения таких систем.
  • Также обсуждается влияние акцента на распознавание речи и как это влияет на пользователей с акцентом.

Qwen3-Omni: Native Omni AI model for text, image and video (github.com) 🔥 Горячее

Команда Alibaba Cloud представила Qwen3-Omni — первую в мире модель, способную одновременно обрабатывать текст, аудио, изображения и видео, а также генерировать речь в реальном времени. Она работает как единая end-to-end система, без необходимости разделения задач на отдельные модули, что повышает эффективность и снижает задержки.

Модель поддерживает мультимодальный ввод и вывод, включая распознавание объектов на видео, анализ аудиодорожек и синтез голоса с естественной интонацией. Это открывает возможности для создания более интерактивных приложений, таких как голосовые ассистенты с визуальным контекстом или системы автоматизированного контент-модерации.

by meetpateltech • 22 сентября 2025 г. в 17:50 • 522 points

ОригиналHN

#alibaba-cloud#multimodal-ai#natural-language-processing#computer-vision#speech-recognition#speech-synthesis#real-time-processing#gpu#github#llm

Комментарии (132)

  • Обсуждается мультимодальная модель Qwen3 с поддержкой голосового ввода/вывода, переводом в реальном времени и впечатляющими демонстрациями.
  • Участники отмечают её доступность для локального запуска (70GB весов) и потенциал для интеграции в умный дом и другие приложения.
  • Поднимаются вопросы о производительности на разных языках, "нативной поддержке видео" и сравнении с закрытыми моделями типа Gemini.
  • Высказываются опасения о возможном доминировании Китая на рынке открытых AI-моделей и реакции на это со стороны США.
  • Обсуждаются технические аспекты: необходимое железо (GPU), квантование, портирование на macOS и стоимость использования.

Комментарии (47)

  • Команда подтвердила: датасеты закрыты, но признаёт, что открытые голосовые банки критичны для мало-рыночных языков.
  • В ближайшие 2 месяца выйдет распознавание речи (STT), включая урду.
  • Работают над офлайн-версиями и «горячими линиями» через операторов, чтобы охватить села без интернета.
  • Пока предоставляют только API; модели не выкладывают на Hugging Face, но планируют хакатон для разработчиков.
  • Крупные игроки игнорируют эти языки из-за малого спроса; команда стремится стать «региональным лидером» до появления конкурентов.

Show HN: Whispering – Open-source, local-first dictation you can trust (github.com) 🔥 Горячее

Whispering — микросервис в репозитории epicenter-so/epicenter, каталог apps/whispering.
Предназначен для быстрого распознавания речи через OpenAI Whisper: принимает аудио-файл, возвращает текст.

Ключевые файлы

  • main.py — FastAPI-endpoint /transcribe (POST, multipart/form-data).
  • requirements.txtfastapi, uvicorn, openai-whisper.
  • Dockerfile — лёгкий образ на python:3.11-slim, порт 8000.

Запуск

docker build -t whispering .
docker run -p 8000:8000 whispering

или

pip install -r requirements.txt
uvicorn main:app --host 0.0.0.0 --port 8000

Использование

curl -F "file=@audio.mp3" http://localhost:8000/transcribe

Ответ: {"text": "распознанный текст"}.

by braden-w • 18 августа 2025 г. в 16:52 • 532 points

ОригиналHN

#python#fastapi#uvicorn#openai-whisper#docker#sqlite#local-first#speech-recognition#microservices#github

Комментарии (135)

  • Пользователи делятся «костыльными», но рабочими схемами диктовки на Linux и обсуждают, как локально запускать Whisper/Parakeet без облаков.
  • Epicenter продвигает идею «local-first»: plaintext + SQLite, прозрачные данные, открытый код, совместимые инструменты.
  • Постоянно сравнивают альтернативы (VoiceInk, Superwhisper, Wispr Flow, Willow, whishper, Vibe) и жалуются на подписки, задержки, качество и отсутствие разметки динамиков.
  • Разработчик Epicenter уже добавляет whisper.cpp и планирует Parakeet; просит помощи в PR для ускорения.

Conversations remotely detected from cell phone vibrations, researchers report (psu.edu)

Исследователи Пенн-стейт показали, что разговор можно «перехватить» на расстоянии до 3 м, измеряя микровибрации динамика смартфона миллиметровым радаром. Используя адаптированную модель распознавания речи Whisper, команда достигла точности транскрибирования ~60 % на словаре до 10 000 слов.

Метод: радар фиксирует вибрации корпуса, вызванные речью в трубке; данные подаются в Whisper, дообученный лишь 1 % параметров (low-rank adaptation). Работа продолжает проект 2022 г., где распознавались 10 заранее заданных слов с точностью 83 %.

Цель — предупредить о риске «беспроводного прослушивания» и показать, что компактное устройство может быть спрятано, например, в ручке. Исследование поддержано NSF.

by giuliomagnifico • 10 августа 2025 г. в 18:14 • 80 points

ОригиналHN

#whisper#radar#speech-recognition#machine-learning#nsf#security#privacy

Комментарии (22)

  • Benn Jordan показал, как по видео восстановить звук, а другие вспомнили лазерные микрофоны, где движение отражённого луча превращается в речь.
  • Участники сомневаются в практичности радара: точность 60 % только с 50 см, дальше — почти угадывание.
  • «Удалённость» названа преувеличением; проще использовать лазер по стеклу телефона или обычные уши.
  • Всплыла старая PoC «Gyrophone», где акселерометр/гироскоп обходил разрешения микрофона и снимал речь.
  • Люди удивлены, что разрешение на датчик движения = потенциальный доступ к микрофону.