Handy – Free open-source speech-to-text app written in Rust
Handy — это бесплатное приложение с открытым исходным кодом для преобразования речи в текст, которое работает локально на вашем компьютере. Оно позволяет диктовать текст в любое поле ввода, просто нажимая и удерживая комбинацию клавиш (по умолчанию Ctrl+Z), а затем вставляя расшифровку после отпускания. Настройки включают переключение между режимом удержания и однократного нажатия для начала и остановки транскрипции.
Приложение полностью приватное — аудио не отправляется в облако, всё обрабатывается на устройстве. Handy позиционируется как доступный инструмент, свободный от подписок, с возможностью кастомизации и поддержкой сообщества через спонсоров like Wordcab и Epicenter. Проект приглашает к участию в разработке и финансировании.
Комментарии (85)
- Пользователи обсуждают высокое потребление ресурсов современных десктопных приложений, приводя примеры, где даже простые действия занимают значительный объем памяти (~120MB).
- Представлены альтернативные и похожие инструменты для преобразования речи в текст (STT), такие как Whispy (Linux), hns (CLI), Gnome расширение и VoiceInk, с акцентом на локальность и минимализм.
- Обсуждаются технические детали проектов: использование моделей Whisper и Parakeet, поддержка GPU/CPU, кроссплатформенность, языки разработки (TypeScript, Rust, Go) и вопросы шумоподавления.
- Участники сравнивают качество и удобство локальных решений с облачными сервисами (например, Groq) и встроенными функциями ОС (macOS dictation, iPhone STT).
- Затрагиваются темы приватности, производительности на слабом железе, удобства использования для программирования и запросы на аналогичные инструменты для преобразования текста в речь (TTS).
Show HN: Python Audio Transcription: Convert Speech to Text Locally
Локальная транскрипция аудио в текст на Python с помощью Whisper от OpenAI решает проблему приватности и затрат. Модель обрабатывает записи офлайн с точностью до 96%, поддерживает множество языков и шумовых условий. Ключевой шаг — установка FFmpeg для обработки аудио, без которой скрипт не заработает.
Доступно пять версий модели: от «tiny» (39 МБ, для тестов) до «large» (1.5 ГБ, максимальная точность). Для большинства задач подходит «base» — баланс скорости и качества. Код включает класс для транскрипции с выводом языка, времени обработки и сохранением результата в файл.
Комментарии (24)
- Участники обсуждают локальные инструменты для преобразования речи в текст, такие как Whisper, SpeechShift и hns, с акцентом на автономность и интеграцию.
- Предлагаются методы улучшения качества транскрипции: предобработка аудио (конвертация в 16кГц WAV, фильтры), постобработка с помощью локальных LLM для очистки текста и снижения количества ошибок.
- Обсуждается добавление диаризации (распознавания говорящих) с помощью библиотек whisperx, pyannote и senko, а также её важность для повышения точности.
- Затрагиваются вопросы производительности, поддержки разных языков и использования аппаратного ускорения (например, Apple MLX) для ускорения обработки.
- Отмечается встроенная поддержка преобразования речи в текст в ffmpeg и упоминаются облачные альтернативы, такие как AssemblyAI, для сравнения точности.
Show HN: OWhisper – Ollama for realtime speech-to-text
OWhisper — это «Ollama для распознавания речи»: локальный или облачный STT-сервер, работающий в потоковом и пакетном режимах.
Появился из запросов пользователей Hyprnote «подключить свой STT, как LLM». Подходит для:
- быстрого локального прототипа;
- развёртывания крупных моделей на собственной инфраструктуре.
CLI — для локального запуска, Proxy — для облачных/крупных моделей.
FAQ
- Код: в репозитории Hyprnote (
owhisper). - Лицензия: GPLv3, планируется MIT.
Комментарии (65)
- Пользователи просят стриминговый вывод, headless-режим и поддержку Linux; сборка уже есть, но тестировалась мало.
- Горячо обсуждается speaker diarization: пока нет, но это «на дорожной карте».
- Кто-то указывает, что проект использует внешние API (Deepgram) и не полностью локален, в отличие от Ollama.
- Автор отвечает: OWhisper умеет запускать локальные модели Whisper и Moonshine, работает как прокси к облачным провайдерам и выдаёт совместимый с Deepgram API.
- Поддерживаемые модели перечислены в CLI (
owhisper pull --help) и скоро появятся на сайте.