Тег: #crawlers — Hacker News Digest

Blocking LLM crawlers without JavaScript (owl.is)

Это сообщение представляет собой проверку CAPTCHA на веб-странице, которая определяет, является ли посетитель человеком или роботом. Пользователю предлагается подождать секунду для проверки, а внизу страницы есть ссылка для роботов с инструкциями "залезьте сюда, если вы робот".

Проверка безопасности является стандартной практикой для защиты от автоматических ботов, которые могут спамить или нарушать работу сайта. Ссылка "/stick-och-brinn/" ведет на специальную страницу для подтверждения, что пользователь действительно является роботом, что является обратной логикой обычной CAPTCHA.

by todsacerdoti • 15 ноября 2025 г. в 23:30 • 180 points

Оригинал • HN

#captcha #web-security #bots #crawlers #web-scraping #ocr #pdf #user-agent #robots.txt #llm

Комментарии (86)

Методы блокировки LLM-краулеров включают создание "ловушек" (скрытые ссылки, невидимые для людей, но распознаваемые ботами), но они могут блокировать легитимных пользователей или RSS-ридеры.
LLM-краулеры часто игнорируют robots.txt, создают высокую нагрузку на сайты, используют спуфированные User-Agent и не соблюдают ограничения на частоту запросов.
Защита PDF-файлов от LLM-анализа практически невозможна, так как контент может быть извлечен через OCR или обход DRM; предлагается добавлять примечания для людей.
Агрессивные LLM-агенты могут генерировать тысячи запросов в минуту, перегружая серверы, в отличие от классических краулеров.
Этические вопросы включают использование LLM для рецензирования научных работ без согласия авторов и потенциальное манипулирование выводами модели.

It seems like the AI crawlers learned how to solve the Anubis challenges (social.anoxinon.de)

Codeberg: похоже, ИИ-боты научились обходить CAPTCHA.

by moelf • 15 августа 2025 г. в 17:01 • 86 points

Оригинал • HN

#captcha #llm #crawlers

Комментарии (78)

I just found out about this when it came to the front page of Hacker News. I really wish I was given advanced notice. I haven't been able to put as much energy into Anubis as I've wanted because I've been incredibly overwhelmed by life and need to be able to afford to make this m