Hacker News Digest

Тег: #speech-to-text

Постов: 3

Handy – Free open-source speech-to-text app written in Rust (handy.computer)

Handy — это бесплатное приложение с открытым исходным кодом для преобразования речи в текст, которое работает локально на вашем компьютере. Оно позволяет диктовать текст в любое поле ввода, просто нажимая и удерживая комбинацию клавиш (по умолчанию Ctrl+Z), а затем вставляя расшифровку после отпускания. Настройки включают переключение между режимом удержания и однократного нажатия для начала и остановки транскрипции.

Приложение полностью приватное — аудио не отправляется в облако, всё обрабатывается на устройстве. Handy позиционируется как доступный инструмент, свободный от подписок, с возможностью кастомизации и поддержкой сообщества через спонсоров like Wordcab и Epicenter. Проект приглашает к участию в разработке и финансировании.

by Leftium • 27 сентября 2025 г. в 20:33 • 201 points

ОригиналHN

#rust#speech-to-text#open-source#whisper#parakeet#typescript#go#gpu#privacy#cross-platform

Комментарии (85)

  • Пользователи обсуждают высокое потребление ресурсов современных десктопных приложений, приводя примеры, где даже простые действия занимают значительный объем памяти (~120MB).
  • Представлены альтернативные и похожие инструменты для преобразования речи в текст (STT), такие как Whispy (Linux), hns (CLI), Gnome расширение и VoiceInk, с акцентом на локальность и минимализм.
  • Обсуждаются технические детали проектов: использование моделей Whisper и Parakeet, поддержка GPU/CPU, кроссплатформенность, языки разработки (TypeScript, Rust, Go) и вопросы шумоподавления.
  • Участники сравнивают качество и удобство локальных решений с облачными сервисами (например, Groq) и встроенными функциями ОС (macOS dictation, iPhone STT).
  • Затрагиваются темы приватности, производительности на слабом железе, удобства использования для программирования и запросы на аналогичные инструменты для преобразования текста в речь (TTS).

Show HN: Python Audio Transcription: Convert Speech to Text Locally (pavlinbg.com)

Локальная транскрипция аудио в текст на Python с помощью Whisper от OpenAI решает проблему приватности и затрат. Модель обрабатывает записи офлайн с точностью до 96%, поддерживает множество языков и шумовых условий. Ключевой шаг — установка FFmpeg для обработки аудио, без которой скрипт не заработает.

Доступно пять версий модели: от «tiny» (39 МБ, для тестов) до «large» (1.5 ГБ, максимальная точность). Для большинства задач подходит «base» — баланс скорости и качества. Код включает класс для транскрипции с выводом языка, времени обработки и сохранением результата в файл.

by Pavlinbg • 22 сентября 2025 г. в 18:18 • 85 points

ОригиналHN

#python#whisper#openai#ffmpeg#speech-to-text#audio-processing#machine-learning#assemblyai

Комментарии (24)

  • Участники обсуждают локальные инструменты для преобразования речи в текст, такие как Whisper, SpeechShift и hns, с акцентом на автономность и интеграцию.
  • Предлагаются методы улучшения качества транскрипции: предобработка аудио (конвертация в 16кГц WAV, фильтры), постобработка с помощью локальных LLM для очистки текста и снижения количества ошибок.
  • Обсуждается добавление диаризации (распознавания говорящих) с помощью библиотек whisperx, pyannote и senko, а также её важность для повышения точности.
  • Затрагиваются вопросы производительности, поддержки разных языков и использования аппаратного ускорения (например, Apple MLX) для ускорения обработки.
  • Отмечается встроенная поддержка преобразования речи в текст в ffmpeg и упоминаются облачные альтернативы, такие как AssemblyAI, для сравнения точности.

Show HN: OWhisper – Ollama for realtime speech-to-text (docs.hyprnote.com)

OWhisper — это «Ollama для распознавания речи»: локальный или облачный STT-сервер, работающий в потоковом и пакетном режимах.

Появился из запросов пользователей Hyprnote «подключить свой STT, как LLM». Подходит для:

  • быстрого локального прототипа;
  • развёртывания крупных моделей на собственной инфраструктуре.

CLI — для локального запуска, Proxy — для облачных/крупных моделей.

FAQ

  • Код: в репозитории Hyprnote (owhisper).
  • Лицензия: GPLv3, планируется MIT.

by yujonglee • 14 августа 2025 г. в 15:47 • 249 points

ОригиналHN

#ollama#whisper#moonshine#deepgram#speech-to-text#gplv3#api

Комментарии (65)

  • Пользователи просят стриминговый вывод, headless-режим и поддержку Linux; сборка уже есть, но тестировалась мало.
  • Горячо обсуждается speaker diarization: пока нет, но это «на дорожной карте».
  • Кто-то указывает, что проект использует внешние API (Deepgram) и не полностью локален, в отличие от Ollama.
  • Автор отвечает: OWhisper умеет запускать локальные модели Whisper и Moonshine, работает как прокси к облачным провайдерам и выдаёт совместимый с Deepgram API.
  • Поддерживаемые модели перечислены в CLI (owhisper pull --help) и скоро появятся на сайте.