Hacker News Digest

Тег: #docx

Постов: 2

ScribeOCR – Web interface for recognizing text, OCR, & creating digitized docs (github.com)

ScribeOCR — это веб-интерфейс для распознавания текста, проверки OCR и создания полностью оцифрованных документов. Проект полностью открыт: исходники на GitHub, лицензия MIT. Поддерживаемые языки включают русский, китайский, японский и корейский. Поддерживаемые форматы: PDF, изображения, архивы ZIP/TAR. Поддерживаемые устройства: сканеры и камеры. Поддерживаемые ОС: Windows, macOS, Linux и веб-версия. Поддерживаемые форматы экспорта: PDF, DOCX, ODT, PPTX и другие. Поддерживаемые форматы экспорта: PDF, DOCX, ODT, PPTX и другие.

by atomicnature • 06 октября 2025 г. в 10:39 • 90 points

ОригиналHN

#ocr#pdf#docx#odt#pptx#zip#tar#windows#macos#linux

Комментарии (13)

I really like the idea, but unfortunately it could not cope with my usecase.I have some lecture slides as image-only PDF (Hungarian language with a sparkle of English and Latin (biology)). I tried the tool on it and I had the following experience:- proofreading with the overlay s

Show HN: Doxx – Terminal .docx viewer inspired by Glow (github.com)

doxx — утилита для просмотра содержимого .docx прямо в терминале.
Быстро, безопасно, без MS Office.

  • Установка
    cargo install doxx

  • Использование

    • Просмотр: doxx file.docx
    • Извлечение текста: doxx --text file.docx > out.txt
    • Показ метаданных: doxx --meta file.docx
  • Особенности

    • Чистый Rust, нет внешних зависимостей.
    • Поддержка кириллицы, таблиц, списков.
    • Режим «только чтение» — файлы не изменяются.

by w108bmg • 17 августа 2025 г. в 19:52 • 223 points

ОригиналHN

#rust#terminal#docx#tui#cargo#ooxml#cli#github

Комментарии (57)

  • Пользователи высоко оценили скорость и полезность TUI-утилиты для просмотра docx, но почти все согласились: название «doxx» вызывает негативные ассоциации с doxxing и требует смены.
  • Ключевое требование — любые «AI-фичи» должны быть полностью опциональными или вынесены в отдельный проект, иначе инструмент запретят в корпоративных и юридических средах.
  • Популярные пожелания: Docker-образ, бинарники для Windows, поддержка Track Changes/метаданных, отображение картинок через kitty/sixel, а также возможность «cat+grep» без промежуточных конвертаций.
  • Некоторые предложили использовать pandoc, LibreOffice или OOXML-Validator как дополнительные инструменты, а автор подтвердил, что скоро появятся релизы и улучшенная документация.