Тег: #audio-processing — Hacker News Digest

Trying out Gemini 3 Pro with audio transcription and a new pelican benchmark (simonwillison.net)

Google выпустил Gemini 3 Pro, обновление модели, которое позволяет ей конкурировать с ведущими аналогами. Модель сохраняет базовые характеристики предыдущей версии (обрезание знаний в январе 2025 года), но предлагает улучшенную производительность. Gemini 3 Pro поддерживает до 1 миллиона входных токенов, может генерировать до 64 000 токенов и обладает мультимодальными возможностями для обработки текста, изображений, аудио и видео.

Согласно собственным тестам Google, Gemini 3 Pro незначительно превосходит Claude 4.5 Sonnet и GPT-5.1 по большинству стандартных бенчмарков. Модель стоит дороже, чем предыдущая версия, но остается дешевле конкурентов. В практическом тесте модель продемонстрировала сильные мультимодальные возможности, успешно обработав сложную таблицу с результатами тестов и создав подробный альтернативный текст для изображения.

by nabla9 • 18 ноября 2025 г. в 19:05 • 141 points

Оригинал • HN

#gemini-3-pro #gemini-3.5-pro #whisper #gpt-5.1 #claude-4.5-sonnet #transcription #audio-processing #summarization #multimodal-ai #benchmarking

Комментарии (47)

Обсуждение охватывает вопросы от транскрибирования и суммаризации длинных аудио-файлов до точности и стоимости, включая использование Whisper и Gemini 3.5 Pro, а также влияние стоимости на качество и доступность.
Участники обсуждают, какие модели лучше всего справляются с задачей транскрибирования и суммаризации, и какие инструменты лучше всего использовать для этой цели.
Также обсуждается, что в будущем может быть разработан единый стандарт для оценки моделей на такие задачи.
Участники также обсуждают, какие именно аспекты важны для журналистов и исследователей, и какие именно инструменты они используют для транскрибирования и суммаризации.

Neural audio codecs: how to get audio into LLMs (kyutai.org) 🔥 Горячее

Текущие речевые LLM работают как обертка: преобразуют речь в текст, обрабатывают его и затем синтезируют ответ обратно в речь, что не позволяет улавливать нюансы интонации, сарказма или эмоций. Даже передовые модели вроде Gemini или ChatGPT с продвинутым голосовым режимом не могут ответить на вопрос о высоте голоса, демонстрируя отставание речевых моделей от текстовых. Проблема в том, что за одну секунду аудио содержится десятки тысяч выборок, в отличие от нескольких слов в тексте, что делает обработку аудио значительно сложнее.

Решением являются нейроаудио-кодеки, такие как Mimi от Kyutai, которые сжимают аудио в более управляемые дискретные токены, аналогично токенизации текста. Вместо предсказания аудио выборка за выборкой, как в ранних моделях вроде WaveNet, кодеки преобразуют непрерывные значения в 256 дискретных "вёдер" с помощью μ-law алгоритма. Этот подход позволяет LLM обрабатывать аудио как последовательность токенов, предсказывать продолжение и затем декодировать обратно в аудио, открывая путь к настоящему пониманию речи.

by karimf • 21 октября 2025 г. в 12:55 • 410 points

Оригинал • HN

#llm #audio-processing #neural-networks #tokenization #audio-codecs #wavenet #law #kyutai #tts #speech-recognition

Комментарии (115)

Обсуждение охватывает широкий спектр тем: от токенизации аудио до фундаментальных вопросов о том, как моделируются речь и звук, и почему это важно для будущего ИИ.
Участники обсуждают, что вместо попыток заставить модели распознавать и генерировать речь, мы должны сосредоточиться на создании моделей, которые могут работать с непрерывными сигналами и, таким образом, избегая необходимости в токенизации аудио.
Обсуждается, что вместо того, чтобы полагаться на существующие аудио кодеки, такие как MP3, мы должны развивать нейрональные кодеки, которые могут быть обучены вместе с моделью и, таким образом, позволяя ей напрямую работать с компактным, дискретным представлением аудио.
Участники также обсуждают, что вместо того, чтобы пытаться обучить модель на транскрибированном тексте, мы должны использовать аудио-ориентированные данные, которые включают в себе всю информацию, которая теряется при транскрибции. Это может включать в себе обучение модели на транскрибированном тексте, который может быть использован для тренировки TTS-моделей.

Tinnitus Neuromodulator (mynoise.net) 🔥 Горячее 💬 Длинная дискуссия

Создан совместный проект между разработчиком Tinnitus Works и myNoise — бесплатный нейромодулятор для борьбы с тиннитусом. Инструмент позволяет настраивать звук под индивидуальные симптомы, предлагая множество пресетов (Neural Hack, Pulsatron, Dreamesque) и параметров: стереоширина, скорость ленты, анимация и эквалайзер. Пользователи могут сохранять свои настройки и делиться ими, а также использовать мини-плеер или мобильное приложение.

Рекомендуется начинать с нулевых позиций всех ползунков, постепенно подбирая те, что соответствуют тону тиннитуса. Объем должен быть минимальным, лишь чтобы смешаться с внутренним звуком. Интересный подход: если звуки не полностью маскируют тиннитус, стоит рассматривать его как еще один слой в этом необычном аудиоопыте. Такой метод осознанности помогает дистанцироваться от симптомов. Эксперименты с разными пресетами и баланс громкости, при которой тиннитус едва слышен, могут дать лучшие результаты.

by gjvc • 18 октября 2025 г. в 16:08 • 348 points

Оригинал • HN

#tinnitus #neuromodulation #audio-processing #sound-therapy #healthcare

Комментарии (217)

Пользователи делятся опытом, но нет единого объяснения причин, и большинство врачей не может их выявить.
Многие описывают, как они научились жить с шумом в ушах, но никто не предлагает универсального лечения.
Некоторые упоминают, что тиннитус может быть вызван стрессом, но нет единого мнения, как его лечить.
Пользователи обсуждают, как справляться с тиннитусом, но нет единого мнения, как его лечить.
Некоторые упоминают, что тиннитус может быть вызван стрессом, но нет единого мнения, как его лечить.

EQ: A video about all forms of equalizers (youtube.com)

Предоставленный контент представляет собой HTML-код подвала сайта YouTube, а не статью Hacker News для пересказа. В коде содержится стандартная информация о компании: ссылки на разделы "О нас", "Пресса", "Авторские права", "Контакты", "Создатели", "Реклама", "Разработчики", "Условия", "Конфиденциальность", "Политика и безопасность", "Как работает YouTube", "Тестирование новых функций" и "NFL Sunday Ticket". Также указано, что сайт принадлежит Google LLC и защищен авторским правом до 2025 года.

Для создания пересказа Hacker News требуется полноценная статья с новостным содержанием, а не фрагмент веб-сайта. Пожалуйста, предоставьте ссылку на актуальную статью с Hacker News, и я подготовлю точный и ёмкий пересказ в соответствии с вашими требованиями.

by robinhouston • 18 октября 2025 г. в 10:51 • 238 points

Оригинал • HN

#audio-processing #equalizers #audio-filters #phase-shifts #signal-processing #pink-noise #white-noise #audio-measurement #youtube

Комментарии (72)

Видео о звуковых эквалайзерах и фильтрах, выложенное на Hacker News, не получило большого интереса, несмотря на то, что автор Posy делает собственную музыку и визуализации, а также затрагивает важные темы, такие как фазовые сдвиги и влияние эквалайзера на фазу сигнала.
Обсуждение выявило, что большинство комментаторов не смотрят видео, предпочитая текстовые посты, и что заголовок может быть вводящим в заблуждение.
Некоторые участники обсуждения подчеркнули, что видео важно для объяснения таких тем, как фильтрация, фазовые сдвиги и отклик громкоговорителей, и что важно различать, что измеряет микрофон (комната) и что измеряет кабель (как важно для цифровых аудиофилов).
Также было отмечено, что важно различать розовый шум (который используется для тестирования) и белый шум, а также то, что графики, которые мы видим в видео, могут быть вводящими в заблуждение, если не учитывать, что они отображают логарифмическую ось Y.

Show HN: Python Audio Transcription: Convert Speech to Text Locally (pavlinbg.com)

Локальная транскрипция аудио в текст на Python с помощью Whisper от OpenAI решает проблему приватности и затрат. Модель обрабатывает записи офлайн с точностью до 96%, поддерживает множество языков и шумовых условий. Ключевой шаг — установка FFmpeg для обработки аудио, без которой скрипт не заработает.

Доступно пять версий модели: от «tiny» (39 МБ, для тестов) до «large» (1.5 ГБ, максимальная точность). Для большинства задач подходит «base» — баланс скорости и качества. Код включает класс для транскрипции с выводом языка, времени обработки и сохранением результата в файл.

by Pavlinbg • 22 сентября 2025 г. в 18:18 • 85 points

Оригинал • HN

#python #whisper #openai #ffmpeg #speech-to-text #audio-processing #machine-learning #assemblyai

Комментарии (24)

Участники обсуждают локальные инструменты для преобразования речи в текст, такие как Whisper, SpeechShift и hns, с акцентом на автономность и интеграцию.
Предлагаются методы улучшения качества транскрипции: предобработка аудио (конвертация в 16кГц WAV, фильтры), постобработка с помощью локальных LLM для очистки текста и снижения количества ошибок.
Обсуждается добавление диаризации (распознавания говорящих) с помощью библиотек whisperx, pyannote и senko, а также её важность для повышения точности.
Затрагиваются вопросы производительности, поддержки разных языков и использования аппаратного ускорения (например, Apple MLX) для ускорения обработки.
Отмечается встроенная поддержка преобразования речи в текст в ffmpeg и упоминаются облачные альтернативы, такие как AssemblyAI, для сравнения точности.

Launch HN: Recall.ai (YC W20) – API for meeting recordings and transcripts

—

by davidgu • 10 сентября 2025 г. в 16:00 • 89 points

Оригинал • HN

#zoom #microsoft-teams #meet #api #audio-processing #video-processing #transcription #diarization #cloud #yc

Комментарии (45)

Recall.ai — API-инфраструктура для записи и транскрипции Zoom/Teams/Meet без собственных ботов; ценность не в транскрипции, а в едином доступе к сырым A/V-данным.
Поддерживает как бота в звонке, так и Desktop SDK для захвата экрана; диаризация по событиям платформы или голосовым сигнатурам.
0,70 $/ч — стартовая цена для тестов, дальше volume-договоры; себестоимость высока из-за CPU-обработки потоков.
Согласие на запись остаётся на разработчике: компания предоставляет инструменты, но не берёт на себя юридическую ответственность.
Конкуренция со стороны «одного уик-енда на Whisper» не страшна: сложность в надёжном подключении ко всем платформам и масштабе, а не в модели транскрипции.

Introduction to Nyquist and Lisp Programming (manual.audacityteam.org)

Nyquist и Lisp в Audacity

Nyquist — язык для синтеза и анализа аудио, написанный Р. Данненбергом. Audacity использует его подмножество; плагины создаются обычным текстом, без компиляции. Поддерживаются Lisp и C-подобный SAL (до 1.3.8 — только Lisp).

Lisp за 2 минуты
Всё — S-выражение: (функция аргументы…)
Пример: (setf area (* 3.14159 (expt radius 2)))

Математика: префиксная нотация (* 3 7)
Своя функция:
(defun circlearea (r) (* 3.14159 (expt r 2)))
(setf a (circlearea 5))
Списки:
(setf lst '(1 2 3)) или (list 1 2 (sqrt 9))
first / rest — доступ к элементам.

Ключевые функции
+ - * / abs sqrt min max expt sin cos tan
listp length reverse sort (first/rest)
if when unless cond

Готово — можно писать эффекты прямо в Audacity.

by swatson741 • 08 сентября 2025 г. в 19:54 • 80 points

Оригинал • HN

#lisp #nyquist #audacity #sal #audio-processing

Комментарии (1)

Участники удивлены, что кто-то всё ещё поддерживает SAL.
Большинство давно перешли на обычный Lisp; SAL встречается лишь в старых проектах.
Новые пользователи даже не знают о существовании SAL.

Eleven Music (elevenlabs.io) 💬 Длинная дискуссия

—

by meetpateltech • 05 августа 2025 г. в 15:42 • 202 points

Оригинал • HN

#web-development #music #audio-processing

Комментарии (267)

I've played guitar for 23 years, and there is something just off-putting about most of the music on that page, but particularly "Yellow Bus Jam".The guitar solo sounds very unnatural, especially the phrasing, which is totally random. Blues musicians are actually attempting to say