Show HN: OWhisper – Ollama for realtime speech-to-text
OWhisper
— это «Ollama для распознавания речи»: локальный или облачный STT-сервер, работающий в потоковом и пакетном режимах.
Появился из запросов пользователей Hyprnote «подключить свой STT, как LLM». Подходит для:
- быстрого локального прототипа;
- развёртывания крупных моделей на собственной инфраструктуре.
CLI — для локального запуска, Proxy — для облачных/крупных моделей.
FAQ
- Код: в репозитории Hyprnote (
owhisper
). - Лицензия: GPLv3, планируется MIT.
Комментарии (65)
- Пользователи просят стриминговый вывод, headless-режим и поддержку Linux; сборка уже есть, но тестировалась мало.
- Горячо обсуждается speaker diarization: пока нет, но это «на дорожной карте».
- Кто-то указывает, что проект использует внешние API (Deepgram) и не полностью локален, в отличие от Ollama.
- Автор отвечает: OWhisper умеет запускать локальные модели Whisper и Moonshine, работает как прокси к облачным провайдерам и выдаёт совместимый с Deepgram API.
- Поддерживаемые модели перечислены в CLI (
owhisper pull --help
) и скоро появятся на сайте.
Conversations remotely detected from cell phone vibrations, researchers report
Исследователи Пенн-стейт показали, что разговор можно «перехватить» на расстоянии до 3 м, измеряя микровибрации динамика смартфона миллиметровым радаром. Используя адаптированную модель распознавания речи Whisper, команда достигла точности транскрибирования ~60 % на словаре до 10 000 слов.
Метод: радар фиксирует вибрации корпуса, вызванные речью в трубке; данные подаются в Whisper, дообученный лишь 1 % параметров (low-rank adaptation). Работа продолжает проект 2022 г., где распознавались 10 заранее заданных слов с точностью 83 %.
Цель — предупредить о риске «беспроводного прослушивания» и показать, что компактное устройство может быть спрятано, например, в ручке. Исследование поддержано NSF.
Комментарии (22)
- Benn Jordan показал, как по видео восстановить звук, а другие вспомнили лазерные микрофоны, где движение отражённого луча превращается в речь.
- Участники сомневаются в практичности радара: точность 60 % только с 50 см, дальше — почти угадывание.
- «Удалённость» названа преувеличением; проще использовать лазер по стеклу телефона или обычные уши.
- Всплыла старая PoC «Gyrophone», где акселерометр/гироскоп обходил разрешения микрофона и снимал речь.
- Люди удивлены, что разрешение на датчик движения = потенциальный доступ к микрофону.
Show HN: Kitten TTS – 25MB CPU-Only, Open-Source TTS Model 🔥 Горячее 💬 Длинная дискуссия
- State-of-the-art модель TTS до 25 МБ 😻
- Пропустить к содержимому
- Навигация, вход, настройки внешнего вида
- Продукты: Copilot, Spark, Models, Advanced Security, Actions, Codespaces, Issues, Code Review, Discussions, Code Search
- Исследовать: Почему GitHub, все функции, документация, навыки, блог
- Решения по размеру компании: Enterprise, для команд, стартапов, НКО
- По задачам: DevSecOps, DevOps, CI/CD и др.
- По индустриям: здравоохранение, финансы, производство, гос сектор
- Ресурсы: темы (ИИ, DevOps, безопасность, разработка), курсы, события, книги, истории клиентов, партнёры, аналитика
- Open Source: Sponsors, ReadME Project
- Репозитории: Темы, Тренды, Коллекции
- Enterprise: платформа, допы — Advanced Security, Copilot for business, поддержка
- Цены
- Поиск кода и репозиториев, советы по синтаксису
- Обратная связь (с email), отправка/отмена
- Сохранённые поиски: создание/управление, документация по синтаксису
- Вход/регистрация
- Сообщения о перезагрузке сессии и переключении аккаунтов
- KittenML/KittenTTS (публичный), уведомления, форки
Комментарии (354)
- KittenTTS (25 МБ, Apache-2.0) генерирует речь оффлайн на CPU, но звучит механически и путает цифры.
- На i9-14900HX 225 символов синтезируются за 5,5× реального времени, но латентность ~315 мс.
- Установка требует кучи зависимостей, поэтому «25 МБ» быстро превращаются в гигабайты.
- Для качественной речи пользователи рекомендуют F5-TTS, Fish-Speech или Piper-TTS; для STT — Whisper.
- Сообщество просит ONNX-порт, обучение на других языках и открытые данные.