Hacker News Digest

Тег: #web-crawling

Постов: 2

AI web crawlers are destroying websites in their never-ending content hunger (theregister.com)

  • Проблема: боты OpenAI, Anthropic, Google и др. генерят до 45 % трафика сайтов, но не приносят денег и ломают инфраструктуру.
  • Последствия: сервера перегружаются, счета за трафик растут, а доход от рекламы не покрывает расходы.
  • Решения: блок-листы, rate-limit, Cloudflare Bot Management, «умные» robots.txt и платные API.

by CrankyBear • 02 сентября 2025 г. в 16:24 • 138 points

ОригиналHN

#openai#anthropic#google#cloudflare#ddos#rate-limit#robots.txt#api#captcha#web-crawling

Комментарии (76)

  • Агрессивные AI-боты превратились в DDoS: малые сайты лежат, счета за трафик вырастают в разы, хостинги выгоняют клиентов.
  • Компании вроде Anthropic/Claude и «мелкие» стартапы не соблюдают rate-limit, не кешируют и маскируют ботов, хотя технически могли бы всё сделать правильно.
  • Админы вынуждены ставить CAPTCHA, login-wall, ASN-блоки, rate-limit и Cloudflare, что ломает accessibility и приватность для людей.
  • Пользователи ищут обходы: кто-то уходит к AI, кто-то отказывается от сайтов с капчами.
  • Общий вывод: боты «пьют молочный коктейль» открытого веба, пока сами компании не несут последствий.

Perplexity is using stealth, undeclared crawlers to evade no-crawl directives (blog.cloudflare.com) 🔥 Горячее 💬 Длинная дискуссия

by rrampage • 04 августа 2025 г. в 13:39 • 1282 points

ОригиналHN

#web-crawling#no-crawl-directives#cloudflare

Комментарии (741)

I find this problem quite difficult to solve:1. If I as a human request a website, then I should be shown the content. Everyone agrees.2. If I as the human request the software on my computer to modify the content before displaying it, for example by installing an ad-blocker into