Hacker News Digest

Тег: #bots

Постов: 2

Blocking LLM crawlers without JavaScript (owl.is)

Это сообщение представляет собой проверку CAPTCHA на веб-странице, которая определяет, является ли посетитель человеком или роботом. Пользователю предлагается подождать секунду для проверки, а внизу страницы есть ссылка для роботов с инструкциями "залезьте сюда, если вы робот".

Проверка безопасности является стандартной практикой для защиты от автоматических ботов, которые могут спамить или нарушать работу сайта. Ссылка "/stick-och-brinn/" ведет на специальную страницу для подтверждения, что пользователь действительно является роботом, что является обратной логикой обычной CAPTCHA.

by todsacerdoti • 15 ноября 2025 г. в 23:30 • 180 points

ОригиналHN

#captcha#web-security#bots#crawlers#web-scraping#ocr#pdf#user-agent#robots.txt#llm

Комментарии (86)

  • Методы блокировки LLM-краулеров включают создание "ловушек" (скрытые ссылки, невидимые для людей, но распознаваемые ботами), но они могут блокировать легитимных пользователей или RSS-ридеры.
  • LLM-краулеры часто игнорируют robots.txt, создают высокую нагрузку на сайты, используют спуфированные User-Agent и не соблюдают ограничения на частоту запросов.
  • Защита PDF-файлов от LLM-анализа практически невозможна, так как контент может быть извлечен через OCR или обход DRM; предлагается добавлять примечания для людей.
  • Агрессивные LLM-агенты могут генерировать тысячи запросов в минуту, перегружая серверы, в отличие от классических краулеров.
  • Этические вопросы включают использование LLM для рецензирования научных работ без согласия авторов и потенциальное манипулирование выводами модели.

The web does not need gatekeepers: Cloudflare’s new “signed agents” pitch (positiveblue.substack.com) 🔥 Горячее 💬 Длинная дискуссия

by positiveblue • 29 августа 2025 г. в 16:35 • 425 points

ОригиналHN

#cloudflare#llm#bots#rate-limiting#robots.txt

Комментарии (426)

  • Участники спорят: нужен ли единый «привратник» (типа Cloudflare), чтобы защищать сайты от агрессивных ИИ-ботов, или это лишний централизованный контроль.
  • Многие жалуются, что крупные компании (Meta, OpenAI, Perplexity) игнорируют robots.txt и нагружают серверы.
  • Противники Cloudflare считают, что «публичное» должно оставаться публичным, а проблему можно решить простым rate-limiting и децентрализованными ID.
  • Часть пользователей готова платить или использовать invite-only доступ, лишь бы не было единого gatekeeper.
  • Пока нет открытого стандарта идентификации агентов, владельцам сайтов приходится либо доверять Cloudflare, либо играть в «кошки-мышки» с ботами.