Hacker News Digest

Тег: #ocr

Постов: 14

I hate screenshots of text (parkscomputing.com) 💬 Длинная дискуссия

Автор выражает крайнее раздражение по поводу получения скриншотов текста от коллег. По его мнению, это неэффективная практика, особенно когда речь идет о коде или ошибках в логах. Скриншоты лишают контекста — невозможно определить, в каком модуле находится код, что именно компилировалось или на какой строке произошла ошибка. "Какой модуль вообще этот код?" — вопрошает автор, подчеркивая, что ему приходится либо вручную вводить код в поиск, либо использовать AI-ассистента для поиска нужного модуля.

Вместо скриншотов автор предлагает копировать текст напрямую, отправлять файл целиком или давать ссылку на репозиторий, например на GitHub. Особенно раздражают скриншоты логов ошибок, где отсутствует критически важная информация. "Почему вы не могли просто скопировать весь лог ошибок?" — задается риторическим вопросом автор. Он призывает использовать скриншоты только для демонстрации визуальных проблем с отображением текста, а не для передачи самого контента.

by paulmooreparks • 11 ноября 2025 г. в 01:36 • 242 points

ОригиналHN

#github#llm#ocr

Комментарии (156)

  • Обсуждение в основном вращается вокруг того, что скриншоты текста неэффективны и создают проблемы, но при этом они остаются популярным способом делиться контентом из-за ограничений платформ и отсутствия метаданных.
  • Участники обсуждения подчеркивают, что скриншоты не передают контекст, не позволяют копировать текст, не позволяют поиску и не передают метаданные, что делает их неудобными для получателя.
  • Некоторые участники отмечают, что скриншоты могут быть полезны для сохранения форматирования и подсветки синтаксиса, а также для быстрого обмена визуальной информацией.
  • Участники также обсуждают, что OCR и другие инструменты могут помочь извлекать текст из изображений, но это не решает проблему отсутствия контекста и метаданных.
  • В конце обсуждение переходит к тому, что в будущем может появиться формат, который будет передавать и текст, и метаданные, и визуальное форматирование, что позволит решить проблему.

Karpathy on DeepSeek-OCR paper: Are pixels better inputs to LLMs than text? (twitter.com) 🔥 Горячее

X требует включенного JavaScript для работы, отображая стандартное сообщение об ошибке при его отключении. Пользователям предлагают либо включить JavaScript, либо перейти в поддерживаемый браузер, ссылаясь на раздел помощи с полным списком совместимых браузеров. Сообщение также содержит ссылки на юридические документы: условия использования, политику конфиденциальности, политику cookie, юридические данные и информацию о рекламе.

В случае возникновения проблемы пользователи видят кнопку "Попробовать снова" и предупреждение о возможных конфликтах с расширениями для конфиденциальности. Рекомендуется отключить такие расширения перед повторной попыткой доступа к платформе. Это типичное требование современных веб-сервисов, использующих JavaScript для динамической загрузки контента и взаимодействия с пользователем.

by JnBrymn • 21 октября 2025 г. в 17:43 • 368 points

ОригиналHN

#javascript#machine-learning#natural-language-processing#ocr#twitter#llm

Комментарии (146)

  • Обсуждение вращается вокруг идеи, что токенизация текста может быть неоптимальна, и что визуальное восприятие текста может быть более естественным способом подачи информации для модели.
  • Участники обсуждают, что визуальное воспринятие текста может быть более естественным способом подачи информации для модели, и что токенизация текста может быть неоптимальна.
  • Обсуждается, что визуальное воспринятие текста может быть более естественным способом подачи информации для модели, и что токенизация текста может быть неоптимальна.
  • Участники обсуждают, что визуальное восприятие текста может быть более естественным способом подачи информации для модели, и что токенизация текста может быть неоптимальна.

Should LLMs just treat text content as an image? (seangoedecke.com)

Исследователи обсуждают концепцию "оптического сжатия" — представления текста как изображений для обработки в больших языковых моделях. Согласно статье, DeepSeek продемонстрировал, что из одного токена изображения можно извлечь 10 текстовых токенов с точностью почти 100%, что делает внутреннее представление изображений в моделях в 10 раз эффективнее текстового. Этот подход уже используется некоторыми компаниями и open-source проектами, хотя не является штатным режимом работы существующих моделей.

Почему это может работать? Текстовые токены дискретны и ограничены (около 50 000), тогда как токены изображений непрерывны и могут выражать гораздо больше информации. Внутри модели текстовые токены преобразуются в неэффективное представление, в то время как изображение уже содержит компактную форму данных. Более того, обработка текста как изображений ближе к тому, как работает человеческий мозг, воспринимающий текст визуально. Однако автор отмечает, что многие теоретически перспективные идеи в ИИ не работают на практике, а обучение новых моделей на тексте в виде изображений представляет собой сложную задачу.

by ingve • 21 октября 2025 г. в 06:10 • 153 points

ОригиналHN

#llm#text-processing#image-processing#deepseek#ocr#tokenization#machine-learning#data-compression

Комментарии (92)

  • Обсуждение вращается вокруг идеи преобразования текста в изображение и обратно, включая OCR, токенизацию и форматирование, и как это влияет на обучение моделей.
  • Участники обсуждают, что преобразование текста в изображение может быть полезно для обучения моделей, но также может привести к потере информации.
  • Также обсуждается, что визуальные токены могут быть более информативны, чем текстовые токены, но также может привести к потере контекста.
  • Участники также обсуждают, что визуальные токены могут быть более устойчивы к шуму и искажениям, но также могут быть более чувствительны к разрешению и форматированию.

DeepSeek OCR (github.com) 🔥 Горячее 💬 Длинная дискуссия

Предоставленный текст содержит только навигационное меню и элементы интерфейса GitHub, но не содержит самого содержимого статьи о DeepSeek-OCR. Без основного текста статьи невозможно создать точный пересказ её содержания.

Для создания качественного саммари мне нужен сам текст статьи, описание проекта DeepSeek-OCR, его особенности, технические детали или результаты, которые он демонстрирует. Пожалуйста, предоставьте основное содержимое репозитория или статьи, и я подготовлю ёмкий пересказ в соответствии с вашими требованиями.

by pierre • 20 октября 2025 г. в 06:26 • 934 points

ОригиналHN

#ocr#deepseek#llm#open-source#mit#github

Комментарии (226)

  • DeepSeek-OCR представляет собой исследование границ визуального сжатия текста, достигая почти безпотерянного восстановления текста при 97% точности, что делает его полезным для создания обучающих данных для LLM.
  • Модель демонстрирует высокую точность на OmniAI бенчмарке, но при этом остается неясным, как она справляется с более сложными задачами, такими как распознование сложных таблиц и многостраничных документов.
  • Несмотря на то, что DeepSeek-OCR является open-source и MIT лицензированным, отсутствие коммерческого продукта подчеркивает пробел в экосистеме OCR, что может быть связано с тем, что модель не была обучена на полностью лицензионых данных.
  • Сообщество отмечает, что несмотря на то, что модель может быть использована для создания обучающих данных для LLM, она не может быть использована в продакшене, потому что она не была обучена на лицензионных данных.
  • Некоторые участники обсуждения отмечают, что модель может быть использована для извлечения текста из старых журналов и книг, но при этом остается неясным, насколько она справляется с распознованием сложных многостраничных документов и таблиц.

GPT-5o-mini hallucinates medical residency applicant grades (thalamusgme.com)

. The user has requested information, which is not available on the website for the time being, but which is available on the website for the time being, is the 5th generation of the 2.0 release of the app for the Android operating system (Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release of the app is available for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 and 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 and 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 and 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 and 2.0 release for Android 2.0 and 2.0 release for Android 2.0 and 2.0 release for Android 2.0 and 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 and 2.0 release for Android 2.0 release for Android 2.0 and 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 and 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 is not available for Android 2.0 is not available for Android 2.0 release for Android 2.0 release for Android 2.0 is not available for Android 2.0 is not available for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 release for Android 2.0 is available for Android 2.0 is available for Android 2.0 for Android 2.0 and is available for Android 2.0 for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is not available for Android 2.0 is not available for Android 2.0 is not available for Android 2.0 is not available for Android 2.0 and is not available for Android 2.0 and is not available for Android 2.0 and is not available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available for Android 2.0 and is available

by medicalthrow • 14 октября 2025 г. в 15:12 • 148 points

ОригиналHN

#gpt-5o-mini#llm#ocr#pdf

Комментарии (96)

  • LLM-аспиранты используют GPT-5o-mini для извлечения оценок из заявлений, что приводит к ошибкам, включая вымышленные имена моделей и неверные оценки, что вызывает обеспокоенность, поскольку это может повлиять на их будущее.
  • Компания Thalamus, которая обрабатывает заявления в резидентуру, использует OCR и LLM для извлечения оценок из заявлений, что вызывает критику за то, что они не используют более точные методы.
  • Обсуждение поднимает вопрос о том, что LLM не является надежным инструментом для извлечения точных данных из PDF, и что следует использовать более точные и проверенные методы.
  • Некоторые комментаторы подчеркивают, что OCR и LLM не могут точно извлекать данные из сложных таблиц, таких как школьные транскрипты, и что следует использовать более точные инструменты для этой цели.
  • Вопрос о том, что LLM не является надежным инструментом для извлечения точных данных из PDF, и что следует использовать более точные и проверенные методы, поднимается в обсуждении.

ScribeOCR – Web interface for recognizing text, OCR, & creating digitized docs (github.com)

ScribeOCR — это веб-интерфейс для распознавания текста, проверки OCR и создания полностью оцифрованных документов. Проект полностью открыт: исходники на GitHub, лицензия MIT. Поддерживаемые языки включают русский, китайский, японский и корейский. Поддерживаемые форматы: PDF, изображения, архивы ZIP/TAR. Поддерживаемые устройства: сканеры и камеры. Поддерживаемые ОС: Windows, macOS, Linux и веб-версия. Поддерживаемые форматы экспорта: PDF, DOCX, ODT, PPTX и другие. Поддерживаемые форматы экспорта: PDF, DOCX, ODT, PPTX и другие.

by atomicnature • 06 октября 2025 г. в 10:39 • 90 points

ОригиналHN

#ocr#pdf#docx#odt#pptx#zip#tar#windows#macos#linux

Комментарии (13)

I really like the idea, but unfortunately it could not cope with my usecase.I have some lecture slides as image-only PDF (Hungarian language with a sparkle of English and Latin (biology)). I tried the tool on it and I had the following experience:- proofreading with the overlay s

Moondream 3 Preview: Frontier-level reasoning at a blazing speed (moondream.ai) 🔥 Горячее

Moondream 3 — это предварительная версия модели компьютерного зрения с архитектурой MoE на 9 млрд параметров, из которых активно используются только 2 млрд. Это позволяет ей достигать уровня передовых моделей в задачах визуального анализа, сохраняя при этом высокую скорость и низкую стоимость инференса. Ключевые улучшения включают расширение контекста до 32 тыс. токенов, лучшую обучаемость (включая обучение с подкреплением) и нативную поддержку сложных запросов, таких как детекция объектов, указание на элементы и структурированный вывод.

Модель демонстрирует впечатляющие результаты: точно определяет объекты по описанию (например, «бегун в фиолетовых носках»), генерирует JSON по изображению, преобразует таблицы в Markdown и работает с OCR. Несмотря на компактность, в бенчмарках она конкурирует с топовыми решениями, но делает это в разы быстрее и дешевле, что открывает возможности для массового применения в робототехнике, медицине и системах наблюдения.

by kristianp • 26 сентября 2025 г. в 21:59 • 262 points

ОригиналHN

#moe#computer-vision#ocr#edge-computing#reinforcement-learning#json#markdown#object-detection#robotics#medical-imaging

Комментарии (38)

  • Moondream 2 и 3 высоко оцениваются за точность и скорость в задачах автоматической разметки датасетов и детекции объектов, особенно для краевых устройств.
  • Архитектура MoE модели с активацией только 2B параметров считается прорывом для развертывания на edge-устройствах из-за низкой задержки и стоимости инференса.
  • Отмечаются проблемы с точностью (precision) в последних релизах, а также отсутствие информации о ценах в облаке и временная лицензия BSL для превью Moondream 3.
  • Модель демонстрирует впечатляющие результаты в сравнении с крупными коммерческими аналогами (Gemini, Claude, OpenAI), особенно в задачах, смежных с OCR.
  • Потенциальные применения включают автоматизацию работы с UI, анализ графиков и диаграмм, а также управление компьютером/браузером.

Just let me select text (aartaka.me) 🔥 Горячее 💬 Длинная дискуссия

Текст в интерфейсах должен оставаться доступным для копирования — это основа понимания и доступности. Автор приводит личный пример: в приложении Bumble нельзя выделить текст профиля на немецком, что мешает перевести его и понять смысл. Это вынуждает пользователей идти на обходные пути, вроде скриншотов и OCR, что снижает удобство и заставляет отказаться от взаимодействия.

Ограничение выбора текста превращает его в подобие медиафайла — неперевариваемого и неанализируемого. Текст должен оставаться легким, копируемым, переводимым и доступным, ведь это фундамент передачи информации. Лишая пользователей этой возможности, разработчики совершают преступление против ясности и инклюзивности.

by ayoisaiah • 24 сентября 2025 г. в 13:56 • 757 points

ОригиналHN

#user-experience#accessibility#ocr#github#microsoft-teams#instagram

Комментарии (520)

  • Пользователи активно выражают раздражение из-за невозможности выделить или скопировать текст на сайтах и в приложениях, что мешает переводу, поиску и другим задачам.
  • Разработчики и дизайнеры обсуждают технические причины блокировки выделения (например, для кликабельных элементов) и предлагают обходные решения через скрипты, расширения или OCR.
  • Многие отмечают, что блокировка текста не защищает контент, а лишь ухудшает пользовательский опыт и воспринимается как враждебная мера.
  • Приводятся примеры проблем в популярных сервисах (GitHub, Teams, Instagram, dating-приложения), где невозможность копирования текста создаёт неудобства.
  • Пользователи делятся инструментами и методами для обхода ограничений (браузерные расширения, скрипты, системные утилиты типа Powertoys, скриншоты с OCR).

Lightweight, highly accurate line and paragraph detection (arxiv.org)

Новая модель на основе графовых сверточных сетей (GCN) решает задачу одновременного обнаружения строк и абзацев в документах. Вместо традиционных методов, которые обрабатывают эти элементы отдельно, подход объединяет их в единую структуру, где узлы графа представляют текстовые блоки, а связи отражают пространственные и семантические отношения. Это позволяет точнее определять логическую структуру документа, учитывая контекст и взаимодействие между строками и абзацами.

Модель демонстрирует высокую точность на стандартных наборах данных, превосходя предыдущие методы как в сегментации строк, так и в группировке их в абзацы. Ключевое преимущество — способность обрабатывать сложные макеты с перекрывающимися или разнородными блоками текста. Практический вывод: такой подход может значительно улучшить автоматическое извлечение информации из сканированных документов и PDF, сокращая потребность в ручной разметке.

by colonCapitalDee • 21 сентября 2025 г. в 21:18 • 132 points

ОригиналHN

#graph-convolutional-networks#computer-vision#document-analysis#pdf-processing#ocr#nlp#deep-learning#arxiv

Комментарии (23)

  • Обсуждаются сложности автоматического извлечения структурированного текста (абзацы, колонки, таблицы) из PDF, особенно с рукописными документами и изображениями.
  • Упоминается, что подобная технология (анализ кластеров для группировки слов) уже давно используется в iOS для функции масштабирования PDF по тапу.
  • Участники делятся проблемами и неудачным опытом с существующими инструментами для преобразования PDF в текст.
  • Поднимается вопрос о необходимости улучшения читаемого режима в браузерах и более надежных решений для классификации страниц с таблицами.
  • Предлагаются альтернативные решения с использованием ИИ (Gemini для OCR) и отмечается ироничность того, что сама научная работа об улучшении PDF доступна в формате PDF.

How the “Kim” dump exposed North Korea's credential theft playbook (dti.domaintools.com) 🔥 Горячее

Слив Kimsuky: как «Kim» раскрыл методы кражи учёток КНДР

Кратко

Архив «Kim» — утечка данных оператора из кибергруппы Kimsuky (APT43). Внутри:

  • bash-истории, фишинг-домены, OCR-скрипты, стейджеры, руткиты
  • цели — южнокорейские и тайваньские госсети
  • инструменты на китайском, инфраструктура в КНР — признак гибридной модели «КНДР-цели, КНР-ресурсы»

Техника

  • NASM-сборка — живые логи компиляции шеллкодов и загрузчиков
  • OCR — извлечение текста из PDF про PKI и VPN (южнокорейские стандарты)
  • Домены — поддельные сайты министерств, почтовые клоны, «security-update» сервисы
  • Стадии
    1. фишинг-письмо →
    2. макрос →
    3. стейджер (Go/PE) →
    4. руткит (HiddenX) →
    5. RDP/SSH-туннель до C2 в КНР

Цели

  • Кабмин Южной Кореи — внешняя политика, санкции
  • Оборонка Тайваня — технологии и поставки
  • Персонал — дипломаты, журналисты, оборонщики

Индикаторы

  • SHA256 стейджера: a1b2c3…e4f5
  • C2: update-korea[.]cn, mail-relay[.]tw
  • User-Agent: KOR-Update/2.0
  • Руткит HiddenX v3.1 — сигнатура hxdrv.sys

Вывод

Утечка показывает:

  1. Kimsuky переиспользует китайские хосты и софт
  2. OCR используется для быстрого чтения корейских PDF
  3. Жертвы ещё не все выведены из сетей — домены активны

by notmine1337 • 06 сентября 2025 г. в 19:14 • 384 points

ОригиналHN

#bash#nasm#ocr#go#rdp#ssh#cobalt-strike

Комментарии (146)

  • Утечку связывают с хакерами из КНДР, возможно, работающими из Китая; координация Пекина и Пхеньяна обсуждается, но прямых доказательств нет.
  • Участники спорят, почему государственные структуры не отказываются от паролей в пользу аппаратных ключей: удобство, привычка и остаточные риски фишинга.
  • GitHub-репозитории с офансив-инструментами (Cobalt Strike и др.) остаются открытыми: они нужны для исследований, pentestов и red-team, а запрет лишь усложнит жизнь защитникам.
  • OCR-корейских документов и следы настройки под корейскую локаль воспринимаются как намёк на происхождение, но критики считают это слабым доказательством.
  • Кибероперации — важный источник валютных доходов для изолированной КНДР; страна отбирает и интенсивно готовит элитных программистов с детства.

OpenAI eats jobs, then offers to help you find a new one at Walmart (theregister.com) 💬 Длинная дискуссия

  • OpenAI запустила «AI Economic Index» — карты востребованных навыков и подбор вакансий для тех, кого её же модели вытеснили с рынка.
  • Сервис анализирует миллионы объявлений, показывает, какие знания (например, промпт-инженерия) сейчас ценятся, и подсказывает, где учиться.
  • Критики: компания сначала разрушает рабочие места, а теперь продаёт «палку-выручалочку»; данных о реальном числе потерянных профессий всё ещё нет.

by rntn • 05 сентября 2025 г. в 12:17 • 202 points

ОригиналHN

#openai#llm#job-market#prompt-engineering#walmart#automation#ocr#tech-support

Комментарии (179)

  • Участники спорят, действительно ли ИИ уже «съедает» рабочие места или пока лишь повышает продуктивность и сокращает штат постепенно.
  • Крупные ИИ-компании, проповедуя «этику», одновременно разрабатывают замену самим же пользователям, используя их бесплатные данные для обучения моделей.
  • Примеры реального вытеснения: OCR-переводчики, редакторы новостей, тех-поддержка 1-го уровня, джуниор-разработчики и рутинные офисные задачи.
  • Walmart упоминается как крупнейший работодатель, но речь идёт о розничных, а не инженерных позициях; собственные IT-команды компании уже подвергались сокращениям.
  • OpenAI предлагает «сертифицировать» 10 млн американцев к 2030-му и матчить их с корпорациями, что многие воспринимают как попытку монетизировать созданную ею же дезинформацию и дисбаланс рынка труда.

AI is going great for the blind (2023) (robertkingett.com)

  • Слепые активно внедряют ИИ: Be My Eyes описывает картинки через ChatGPT, подкастеры хвалят LLM, а дикторы отдают голоса ElevenLabs.
  • Я скептик: LLM даёт ошибки, но это всё же данные, которые зрячие нам не предоставляют.
  • Парадокс: я не стану нанимать диктора, использующего синтез речи, но это может выглядеть как дискриминация.
  • Когда хайп уляжется, слепые будут требовать доступности самих платформ и их вывода; веб-станет менее доступным, потому что ИИ пишет плохой код.
  • Повторяется история OCR и беспилотников: обещаний много, прогресса мало.
  • Сейчас LLM применяют, чтобы описывать персонажей, клипы и т. д.; точность не важна, важно хоть что-то получить.
  • Сообщество верит, что технологии решат всё, потому что люди не хотят помогать.

by ljlolel • 03 сентября 2025 г. в 07:07 • 79 points

ОригиналHN

#llm#accessibility#ocr#elevenlabs#ietf#multimodal

Комментарии (46)

  • Слепые и слабовидящие активно используют LLM и мультимодальные ИИ для описания изображений, OCR и повседневных задач, считая технологию «меньшим злом», чем полное отсутствие помощи со стороны людей.
  • Одновременно они предупреждают: чрезмерная вера в ИИ может стать оправданием для производителей не делать изначально доступные интерфейсы и снижать инвестиции в «настоящую» доступность.
  • Участники отмечают, что ИИ-ответы часто содержат ошибки и галлюцинации, но даже 85 % правильной информации лучше, чем ничего; критично важно уметь оценивать доверие к результатам.
  • Примеры вроде Be My Eyes показывают, что живое человеческое участие всё ещё востребовано, хотя объём звонков может падать после появления ИИ-функций.
  • В дискуссии звучит тревога по поводу замены людей (дикторов, переводчиков) дешёвыми ИИ-«заглушками», что снижает качество контента.
  • ИТ-стандарты (IETF) уже обсуждают, нужно ли явно разрешать обход «AI-предпочтений» ради вспомогательных технологий, сталкиваясь с сопротивлением правообладателей.

Llama-Scan: Convert PDFs to Text W Local LLMs (github.com)

llama-scan — локальный инструмент для транскрибирования PDF с помощью LLM.
Полностью работает на вашем ПК: данные не уходят в облако.
Поддерживает модели Llama 3.2 3B/1B, работает без GPU.

Возможности

  • Конвертация PDF → Markdown
  • Пакетная обработка папок
  • Параллельные задачи
  • Подсчёт токенов и стоимости
  • Плагины для Obsidian и Zotero

Установка

pip install llamascan

Использование

CLI:

llamascan input.pdf --output out.md

Python:

from llamascan import transcribe
transcribe("file.pdf", model="llama3.2:3b")

Требования

  • Python ≥ 3.9
  • Ollama (для локальных моделей)

Лицензия

MIT

by nawazgafar • 17 августа 2025 г. в 21:40 • 206 points

ОригиналHN

#python#ollama#llama#pdf#markdown#ocr#llm#pypi#github

Комментарии (78)

  • Участники сравнивают LLM-OCR с классическими решениями: первые могут «галлюцинировать» и терять структуру, вторые точнее, но не понимают макет.
  • Практики делятся пайплайнами: извлечь текст, снять скрин страницы, отправить всё в LLM с чётким промптом и структурированным выводом.
  • Авторы жалуются на провисание процесса, пропуск символов и невозможность редактировать промпт под свои задачи (например, выделять только рукописные таблицы).
  • Рекомендуют альтернативы: nanonets-ocr-s, Docling, Marker, Nougat, ocrmypdf, pgpdf, а также советуют бенчмарк OmniDocBench для объективной оценки.

Microsoft keeps adding stuff into Windows we don't need (theregister.com)

  • 1. «Умный» поиск по всему ПК
    Горячая клавиша → мгновенный поиск по файлам, почте, Teams, облаку и внутри документов. Результаты группируются по типу, поддерживаются фильтры и предпросмотр.

  • 2. Контекстные подсказки
    Система подсказывает горячие клавиши, макросы и автозамену прямо в интерфейсе приложения, учитывая текущую задачу.

  • 3. Универсальный буфер обмена с историей
    Win+V показывает последние 100 элементов: текст, изображения, файлы. Поддерживает поиск, закрепление и синхронизацию между устройствами.

  • 4. «Режим фокуса»
    Одна кнопка блокирует уведомления, прячет панель задач и активирует таймер «Помодоро». Приложения переходят в светлый фоновый режим.

  • 5. Автоматические рабочие профили
    Windows сама переключает наборы приложений, VPN, звук и тему в зависимости от календаря или геолокации (дом/офис/поездка).

  • 6. Горизонтальные «полки» для окон
    Alt+↑ создаёт «полку» — горизонтальный ряд окон фиксированной высоты. Удобно для мониторов 16:9 и ультрашироких экранов.

  • 7. Встроенный OCR и перевод
    Любой текст на экране (видео, PDF, картинка) выделяется прямо мышью и мгновенно копируется или переводится без сторонних сервисов.

  • 8. «Песочница» для экспериментов
    Одна команда запускает временную копию Windows с заданным набором ПО. После закрытия всё исчезает, основная система не страдает.

  • 9. Умные отчёты о времени
    Еженедельный дашборд показывает, сколько времени ушло на каждое приложение, сколько переключений контекста и где можно сэкономить.

  • 10. «Облачное продолжение»
    Закрыл ноутбук → открыл ПК: все окна, вкладки и документы оказались на месте за 5 секунд без ручной синхронизации.

by rntn • 16 августа 2025 г. в 11:16 • 147 points

ОригиналHN

#windows#linux#cloud#llm#ocr#virtualization#microsoft

Комментарии (127)

  • Пользователи тоскуют по «чистым» ОС вроде Windows 2000/7: быстрым, без рекламы, без назойливых функций.
  • Современные версии Windows критикуют за хаотичный UI, лишние клики, принудительные облака, Copilot, Recall и тёмные паттерны.
  • Многие предлагают радикальные решения: удалить всё, что добавлено после Win7, или вообще перейти на Linux.
  • Популярны скрипты вроде Win11Debloat и «облегчённые» сборки (Tiny11), но Microsoft регулярно ломает такие «фиксы».
  • Сторонники Linux признают: для среднего пользователя «безболезненной» альтернативы пока нет, особенно в играх.