Hacker News Digest

Тег: #pypi

Постов: 1

Llama-Scan: Convert PDFs to Text W Local LLMs (github.com)

llama-scan — локальный инструмент для транскрибирования PDF с помощью LLM.
Полностью работает на вашем ПК: данные не уходят в облако.
Поддерживает модели Llama 3.2 3B/1B, работает без GPU.

Возможности

  • Конвертация PDF → Markdown
  • Пакетная обработка папок
  • Параллельные задачи
  • Подсчёт токенов и стоимости
  • Плагины для Obsidian и Zotero

Установка

pip install llamascan

Использование

CLI:

llamascan input.pdf --output out.md

Python:

from llamascan import transcribe
transcribe("file.pdf", model="llama3.2:3b")

Требования

  • Python ≥ 3.9
  • Ollama (для локальных моделей)

Лицензия

MIT

by nawazgafar • 17 августа 2025 г. в 21:40 • 206 points

ОригиналHN

#python#ollama#llama#pdf#markdown#ocr#llm#pypi#github

Комментарии (78)

  • Участники сравнивают LLM-OCR с классическими решениями: первые могут «галлюцинировать» и терять структуру, вторые точнее, но не понимают макет.
  • Практики делятся пайплайнами: извлечь текст, снять скрин страницы, отправить всё в LLM с чётким промптом и структурированным выводом.
  • Авторы жалуются на провисание процесса, пропуск символов и невозможность редактировать промпт под свои задачи (например, выделять только рукописные таблицы).
  • Рекомендуют альтернативы: nanonets-ocr-s, Docling, Marker, Nougat, ocrmypdf, pgpdf, а также советуют бенчмарк OmniDocBench для объективной оценки.