Blocking LLM crawlers without JavaScript
Это сообщение представляет собой проверку CAPTCHA на веб-странице, которая определяет, является ли посетитель человеком или роботом. Пользователю предлагается подождать секунду для проверки, а внизу страницы есть ссылка для роботов с инструкциями "залезьте сюда, если вы робот".
Проверка безопасности является стандартной практикой для защиты от автоматических ботов, которые могут спамить или нарушать работу сайта. Ссылка "/stick-och-brinn/" ведет на специальную страницу для подтверждения, что пользователь действительно является роботом, что является обратной логикой обычной CAPTCHA.
Комментарии (86)
- Методы блокировки LLM-краулеров включают создание "ловушек" (скрытые ссылки, невидимые для людей, но распознаваемые ботами), но они могут блокировать легитимных пользователей или RSS-ридеры.
- LLM-краулеры часто игнорируют robots.txt, создают высокую нагрузку на сайты, используют спуфированные User-Agent и не соблюдают ограничения на частоту запросов.
- Защита PDF-файлов от LLM-анализа практически невозможна, так как контент может быть извлечен через OCR или обход DRM; предлагается добавлять примечания для людей.
- Агрессивные LLM-агенты могут генерировать тысячи запросов в минуту, перегружая серверы, в отличие от классических краулеров.
- Этические вопросы включают использование LLM для рецензирования научных работ без согласия авторов и потенциальное манипулирование выводами модели.
Комментарии (75)
- Боты-сканеры ищут уязвимости через PHP-файлы, а не скрапят контент, и часто прерывают запросы после получения HTTP-кода.
- Для борьбы используются методы: блокировка по заголовкам (например, отсутствие Accept-Language), honeypots с ложными файлами, генерация бесполезных данных (Nepenthes) или zip-бомбы.
- Этический спор: публичный контент доступен для скрапинга, но агрессивные боты создают нагрузку на серверы, а AI-скраперы воруют контент без отдачи владельцам.
- Эффективные стратегии: фильтрация по User-Agent, возврат ошибок (418 I'm a teapot), ограничение доступа по регионам или использование fail2ban/crowdsec.
- Проблема AI-скраперов: они могут "отравлять" модели мусором, но их защита сложнее из-за обхода мер (например, residential-IP).