Llama-Scan: Convert PDFs to Text W Local LLMs
llama-scan — локальный инструмент для транскрибирования PDF с помощью LLM.
Полностью работает на вашем ПК: данные не уходят в облако.
Поддерживает модели Llama 3.2 3B/1B, работает без GPU.
Возможности
- Конвертация PDF → Markdown
- Пакетная обработка папок
- Параллельные задачи
- Подсчёт токенов и стоимости
- Плагины для Obsidian и Zotero
Установка
pip install llamascan
Использование
CLI:
llamascan input.pdf --output out.md
Python:
from llamascan import transcribe
transcribe("file.pdf", model="llama3.2:3b")
Требования
- Python ≥ 3.9
- Ollama (для локальных моделей)
Лицензия
MIT
Комментарии (78)
- Участники сравнивают LLM-OCR с классическими решениями: первые могут «галлюцинировать» и терять структуру, вторые точнее, но не понимают макет.
- Практики делятся пайплайнами: извлечь текст, снять скрин страницы, отправить всё в LLM с чётким промптом и структурированным выводом.
- Авторы жалуются на провисание процесса, пропуск символов и невозможность редактировать промпт под свои задачи (например, выделять только рукописные таблицы).
- Рекомендуют альтернативы: nanonets-ocr-s, Docling, Marker, Nougat, ocrmypdf, pgpdf, а также советуют бенчмарк OmniDocBench для объективной оценки.