Neural audio codecs: how to get audio into LLMs 🔥 Горячее
Текущие речевые LLM работают как обертка: преобразуют речь в текст, обрабатывают его и затем синтезируют ответ обратно в речь, что не позволяет улавливать нюансы интонации, сарказма или эмоций. Даже передовые модели вроде Gemini или ChatGPT с продвинутым голосовым режимом не могут ответить на вопрос о высоте голоса, демонстрируя отставание речевых моделей от текстовых. Проблема в том, что за одну секунду аудио содержится десятки тысяч выборок, в отличие от нескольких слов в тексте, что делает обработку аудио значительно сложнее.
Решением являются нейроаудио-кодеки, такие как Mimi от Kyutai, которые сжимают аудио в более управляемые дискретные токены, аналогично токенизации текста. Вместо предсказания аудио выборка за выборкой, как в ранних моделях вроде WaveNet, кодеки преобразуют непрерывные значения в 256 дискретных "вёдер" с помощью μ-law алгоритма. Этот подход позволяет LLM обрабатывать аудио как последовательность токенов, предсказывать продолжение и затем декодировать обратно в аудио, открывая путь к настоящему пониманию речи.
Комментарии (115)
- Обсуждение охватывает широкий спектр тем: от токенизации аудио до фундаментальных вопросов о том, как моделируются речь и звук, и почему это важно для будущего ИИ.
- Участники обсуждают, что вместо попыток заставить модели распознавать и генерировать речь, мы должны сосредоточиться на создании моделей, которые могут работать с непрерывными сигналами и, таким образом, избегая необходимости в токенизации аудио.
- Обсуждается, что вместо того, чтобы полагаться на существующие аудио кодеки, такие как MP3, мы должны развивать нейрональные кодеки, которые могут быть обучены вместе с моделью и, таким образом, позволяя ей напрямую работать с компактным, дискретным представлением аудио.
- Участники также обсуждают, что вместо того, чтобы пытаться обучить модель на транскрибированном тексте, мы должны использовать аудио-ориентированные данные, которые включают в себе всю информацию, которая теряется при транскрибции. Это может включать в себе обучение модели на транскрибированном тексте, который может быть использован для тренировки TTS-моделей.
How AI hears accents: An audible visualization of accent clusters
Исследователи обучили модель для идентификации акцентов, используя 25 тысяч часов английской речи. Теперь можно услышать, как ИИ «слышит» разные акценты, преобразуя их в единый нейтральный голос. Это позволяет сравнивать акценты, скрывая личные особенности голосов. Например, испанский и итальянский акценты оказались рядом, что ожидаемо из-за схожести языков. Интересно, что ирландский акцент ближе к американскому, чем британский.
Комментарии (113)
- Обсуждение охватывает широкий спектр тем: от трудностей распознавания акцентов до визуализации кластеров акцентов и их влияния на обучение моделей.
- Участники делятся личным опытом, включая то, как их собственные акценты были распознаны и интерпретированы.
- Обсуждаются ограничения и предвзятость в данных, используемых для обучения таких систем.
- Также обсуждается влияние акцента на распознавание речи и как это влияет на пользователей с акцентом.
Qwen3-Omni: Native Omni AI model for text, image and video 🔥 Горячее
Команда Alibaba Cloud представила Qwen3-Omni — первую в мире модель, способную одновременно обрабатывать текст, аудио, изображения и видео, а также генерировать речь в реальном времени. Она работает как единая end-to-end система, без необходимости разделения задач на отдельные модули, что повышает эффективность и снижает задержки.
Модель поддерживает мультимодальный ввод и вывод, включая распознавание объектов на видео, анализ аудиодорожек и синтез голоса с естественной интонацией. Это открывает возможности для создания более интерактивных приложений, таких как голосовые ассистенты с визуальным контекстом или системы автоматизированного контент-модерации.
Комментарии (132)
- Обсуждается мультимодальная модель Qwen3 с поддержкой голосового ввода/вывода, переводом в реальном времени и впечатляющими демонстрациями.
- Участники отмечают её доступность для локального запуска (70GB весов) и потенциал для интеграции в умный дом и другие приложения.
- Поднимаются вопросы о производительности на разных языках, "нативной поддержке видео" и сравнении с закрытыми моделями типа Gemini.
- Высказываются опасения о возможном доминировании Китая на рынке открытых AI-моделей и реакции на это со стороны США.
- Обсуждаются технические аспекты: необходимое железо (GPU), квантование, портирование на macOS и стоимость использования.
Комментарии (47)
- Команда подтвердила: датасеты закрыты, но признаёт, что открытые голосовые банки критичны для мало-рыночных языков.
- В ближайшие 2 месяца выйдет распознавание речи (STT), включая урду.
- Работают над офлайн-версиями и «горячими линиями» через операторов, чтобы охватить села без интернета.
- Пока предоставляют только API; модели не выкладывают на Hugging Face, но планируют хакатон для разработчиков.
- Крупные игроки игнорируют эти языки из-за малого спроса; команда стремится стать «региональным лидером» до появления конкурентов.
Show HN: Whispering – Open-source, local-first dictation you can trust 🔥 Горячее
Whispering — микросервис в репозитории epicenter-so/epicenter, каталог apps/whispering.
Предназначен для быстрого распознавания речи через OpenAI Whisper: принимает аудио-файл, возвращает текст.
Ключевые файлы
main.py— FastAPI-endpoint/transcribe(POST, multipart/form-data).requirements.txt—fastapi,uvicorn,openai-whisper.Dockerfile— лёгкий образ наpython:3.11-slim, порт 8000.
Запуск
docker build -t whispering .
docker run -p 8000:8000 whispering
или
pip install -r requirements.txt
uvicorn main:app --host 0.0.0.0 --port 8000
Использование
curl -F "file=@audio.mp3" http://localhost:8000/transcribe
Ответ: {"text": "распознанный текст"}.
Комментарии (135)
- Пользователи делятся «костыльными», но рабочими схемами диктовки на Linux и обсуждают, как локально запускать Whisper/Parakeet без облаков.
- Epicenter продвигает идею «local-first»: plaintext + SQLite, прозрачные данные, открытый код, совместимые инструменты.
- Постоянно сравнивают альтернативы (VoiceInk, Superwhisper, Wispr Flow, Willow, whishper, Vibe) и жалуются на подписки, задержки, качество и отсутствие разметки динамиков.
- Разработчик Epicenter уже добавляет whisper.cpp и планирует Parakeet; просит помощи в PR для ускорения.
Conversations remotely detected from cell phone vibrations, researchers report
Исследователи Пенн-стейт показали, что разговор можно «перехватить» на расстоянии до 3 м, измеряя микровибрации динамика смартфона миллиметровым радаром. Используя адаптированную модель распознавания речи Whisper, команда достигла точности транскрибирования ~60 % на словаре до 10 000 слов.
Метод: радар фиксирует вибрации корпуса, вызванные речью в трубке; данные подаются в Whisper, дообученный лишь 1 % параметров (low-rank adaptation). Работа продолжает проект 2022 г., где распознавались 10 заранее заданных слов с точностью 83 %.
Цель — предупредить о риске «беспроводного прослушивания» и показать, что компактное устройство может быть спрятано, например, в ручке. Исследование поддержано NSF.
Комментарии (22)
- Benn Jordan показал, как по видео восстановить звук, а другие вспомнили лазерные микрофоны, где движение отражённого луча превращается в речь.
- Участники сомневаются в практичности радара: точность 60 % только с 50 см, дальше — почти угадывание.
- «Удалённость» названа преувеличением; проще использовать лазер по стеклу телефона или обычные уши.
- Всплыла старая PoC «Gyrophone», где акселерометр/гироскоп обходил разрешения микрофона и снимал речь.
- Люди удивлены, что разрешение на датчик движения = потенциальный доступ к микрофону.