Abogen – Generate audiobooks from EPUBs, PDFs and text 🔥 Горячее
abogen — консольный инструмент, превращающий EPUB, PDF и обычный текст в аудиокниги с синхронными субтитрами.
Возможности
- Форматы: EPUB, PDF, TXT.
- TTS-движки: Coqui TTS, OpenAI TTS, Edge TTS, Google TTS.
- Субтитры: SRT/VTT, привязанные к словам.
- Языки: 40+, включая русский.
- CLI:
abogen book.epub --voice en-US-AriaNeural --output book.m4b
.
Установка
pip install abogen
Использование
abogen mybook.pdf --voice ru-RU-SvetlanaNeural --format m4b
Ссылки
Комментарии (74)
- Пользователи обсуждают Abogen — GUI-обёртку над Kokoro TTS для генерации аудиокниг из текста.
- Качество голоса признаётся «ровным», но без эмоций и актёрской игры; для художественных книг это критично.
- Отмечены проблемы: долгие предложения обрезаются, «Mr.» читается с лишней паузой, видео-демо без звука в Firefox.
- Кто-то хочет API и автоматический пайплайн Calibre-Web → Abogen → Audiobookshelf, другие — формат DAISY и «голос Моргана Фримена».
- Итог: инструмент годен для личного использования и доступности, но пока не дотягивает до коммерческих аудиокниг.
Show HN: Kitten TTS – 25MB CPU-Only, Open-Source TTS Model 🔥 Горячее 💬 Длинная дискуссия
- State-of-the-art модель TTS до 25 МБ 😻
- Пропустить к содержимому
- Навигация, вход, настройки внешнего вида
- Продукты: Copilot, Spark, Models, Advanced Security, Actions, Codespaces, Issues, Code Review, Discussions, Code Search
- Исследовать: Почему GitHub, все функции, документация, навыки, блог
- Решения по размеру компании: Enterprise, для команд, стартапов, НКО
- По задачам: DevSecOps, DevOps, CI/CD и др.
- По индустриям: здравоохранение, финансы, производство, гос сектор
- Ресурсы: темы (ИИ, DevOps, безопасность, разработка), курсы, события, книги, истории клиентов, партнёры, аналитика
- Open Source: Sponsors, ReadME Project
- Репозитории: Темы, Тренды, Коллекции
- Enterprise: платформа, допы — Advanced Security, Copilot for business, поддержка
- Цены
- Поиск кода и репозиториев, советы по синтаксису
- Обратная связь (с email), отправка/отмена
- Сохранённые поиски: создание/управление, документация по синтаксису
- Вход/регистрация
- Сообщения о перезагрузке сессии и переключении аккаунтов
- KittenML/KittenTTS (публичный), уведомления, форки
Комментарии (354)
- KittenTTS (25 МБ, Apache-2.0) генерирует речь оффлайн на CPU, но звучит механически и путает цифры.
- На i9-14900HX 225 символов синтезируются за 5,5× реального времени, но латентность ~315 мс.
- Установка требует кучи зависимостей, поэтому «25 МБ» быстро превращаются в гигабайты.
- Для качественной речи пользователи рекомендуют F5-TTS, Fish-Speech или Piper-TTS; для STT — Whisper.
- Сообщество просит ONNX-порт, обучение на других языках и открытые данные.