Hacker News Digest

Тег: #whisper

Постов: 3

Show HN: OWhisper – Ollama for realtime speech-to-text (docs.hyprnote.com)

OWhisper — это «Ollama для распознавания речи»: локальный или облачный STT-сервер, работающий в потоковом и пакетном режимах.

Появился из запросов пользователей Hyprnote «подключить свой STT, как LLM». Подходит для:

  • быстрого локального прототипа;
  • развёртывания крупных моделей на собственной инфраструктуре.

CLI — для локального запуска, Proxy — для облачных/крупных моделей.

FAQ

  • Код: в репозитории Hyprnote (owhisper).
  • Лицензия: GPLv3, планируется MIT.

by yujonglee • 14 августа 2025 г. в 15:47 • 249 points

ОригиналHN

#ollama#whisper#moonshine#deepgram#speech-to-text#gplv3#api

Комментарии (65)

  • Пользователи просят стриминговый вывод, headless-режим и поддержку Linux; сборка уже есть, но тестировалась мало.
  • Горячо обсуждается speaker diarization: пока нет, но это «на дорожной карте».
  • Кто-то указывает, что проект использует внешние API (Deepgram) и не полностью локален, в отличие от Ollama.
  • Автор отвечает: OWhisper умеет запускать локальные модели Whisper и Moonshine, работает как прокси к облачным провайдерам и выдаёт совместимый с Deepgram API.
  • Поддерживаемые модели перечислены в CLI (owhisper pull --help) и скоро появятся на сайте.

Conversations remotely detected from cell phone vibrations, researchers report (psu.edu)

Исследователи Пенн-стейт показали, что разговор можно «перехватить» на расстоянии до 3 м, измеряя микровибрации динамика смартфона миллиметровым радаром. Используя адаптированную модель распознавания речи Whisper, команда достигла точности транскрибирования ~60 % на словаре до 10 000 слов.

Метод: радар фиксирует вибрации корпуса, вызванные речью в трубке; данные подаются в Whisper, дообученный лишь 1 % параметров (low-rank adaptation). Работа продолжает проект 2022 г., где распознавались 10 заранее заданных слов с точностью 83 %.

Цель — предупредить о риске «беспроводного прослушивания» и показать, что компактное устройство может быть спрятано, например, в ручке. Исследование поддержано NSF.

by giuliomagnifico • 10 августа 2025 г. в 18:14 • 80 points

ОригиналHN

#whisper#radar#speech-recognition#machine-learning#nsf#security#privacy

Комментарии (22)

  • Benn Jordan показал, как по видео восстановить звук, а другие вспомнили лазерные микрофоны, где движение отражённого луча превращается в речь.
  • Участники сомневаются в практичности радара: точность 60 % только с 50 см, дальше — почти угадывание.
  • «Удалённость» названа преувеличением; проще использовать лазер по стеклу телефона или обычные уши.
  • Всплыла старая PoC «Gyrophone», где акселерометр/гироскоп обходил разрешения микрофона и снимал речь.
  • Люди удивлены, что разрешение на датчик движения = потенциальный доступ к микрофону.

Show HN: Kitten TTS – 25MB CPU-Only, Open-Source TTS Model (github.com) 🔥 Горячее 💬 Длинная дискуссия

  • State-of-the-art модель TTS до 25 МБ 😻
  • Пропустить к содержимому
  • Навигация, вход, настройки внешнего вида
  • Продукты: Copilot, Spark, Models, Advanced Security, Actions, Codespaces, Issues, Code Review, Discussions, Code Search
  • Исследовать: Почему GitHub, все функции, документация, навыки, блог
  • Решения по размеру компании: Enterprise, для команд, стартапов, НКО
  • По задачам: DevSecOps, DevOps, CI/CD и др.
  • По индустриям: здравоохранение, финансы, производство, гос сектор
  • Ресурсы: темы (ИИ, DevOps, безопасность, разработка), курсы, события, книги, истории клиентов, партнёры, аналитика
  • Open Source: Sponsors, ReadME Project
  • Репозитории: Темы, Тренды, Коллекции
  • Enterprise: платформа, допы — Advanced Security, Copilot for business, поддержка
  • Цены
  • Поиск кода и репозиториев, советы по синтаксису
  • Обратная связь (с email), отправка/отмена
  • Сохранённые поиски: создание/управление, документация по синтаксису
  • Вход/регистрация
  • Сообщения о перезагрузке сессии и переключении аккаунтов
  • KittenML/KittenTTS (публичный), уведомления, форки

by divamgupta • 06 августа 2025 г. в 05:04 • 959 points

ОригиналHN

#tts#opensource#machinelearning#llm#python#onnx#whisper#f5-tts#piper-tts#github

Комментарии (354)

  • KittenTTS (25 МБ, Apache-2.0) генерирует речь оффлайн на CPU, но звучит механически и путает цифры.
  • На i9-14900HX 225 символов синтезируются за 5,5× реального времени, но латентность ~315 мс.
  • Установка требует кучи зависимостей, поэтому «25 МБ» быстро превращаются в гигабайты.
  • Для качественной речи пользователи рекомендуют F5-TTS, Fish-Speech или Piper-TTS; для STT — Whisper.
  • Сообщество просит ONNX-порт, обучение на других языках и открытые данные.