Show HN: Python Audio Transcription: Convert Speech to Text Locally

Локальная транскрипция аудио в текст на Python с помощью Whisper от OpenAI решает проблему приватности и затрат. Модель обрабатывает записи офлайн с точностью до 96%, поддерживает множество языков и шумовых условий. Ключевой шаг — установка FFmpeg для обработки аудио, без которой скрипт не заработает.

Доступно пять версий модели: от «tiny» (39 МБ, для тестов) до «large» (1.5 ГБ, максимальная точность). Для большинства задач подходит «base» — баланс скорости и качества. Код включает класс для транскрипции с выводом языка, времени обработки и сохранением результата в файл.

Комментарии (24)

Участники обсуждают локальные инструменты для преобразования речи в текст, такие как Whisper, SpeechShift и hns, с акцентом на автономность и интеграцию.
Предлагаются методы улучшения качества транскрипции: предобработка аудио (конвертация в 16кГц WAV, фильтры), постобработка с помощью локальных LLM для очистки текста и снижения количества ошибок.
Обсуждается добавление диаризации (распознавания говорящих) с помощью библиотек whisperx, pyannote и senko, а также её важность для повышения точности.
Затрагиваются вопросы производительности, поддержки разных языков и использования аппаратного ускорения (например, Apple MLX) для ускорения обработки.
Отмечается встроенная поддержка преобразования речи в текст в ffmpeg и упоминаются облачные альтернативы, такие как AssemblyAI, для сравнения точности.