Тег: #web-crawling — Hacker News Digest

AI web crawlers are destroying websites in their never-ending content hunger (theregister.com)

Проблема: боты OpenAI, Anthropic, Google и др. генерят до 45 % трафика сайтов, но не приносят денег и ломают инфраструктуру.
Последствия: сервера перегружаются, счета за трафик растут, а доход от рекламы не покрывает расходы.
Решения: блок-листы, rate-limit, Cloudflare Bot Management, «умные» robots.txt и платные API.

by CrankyBear • 02 сентября 2025 г. в 16:24 • 138 points

Оригинал • HN

#openai #anthropic #google #cloudflare #ddos #rate-limit #robots.txt #api #captcha #web-crawling

Комментарии (76)

Агрессивные AI-боты превратились в DDoS: малые сайты лежат, счета за трафик вырастают в разы, хостинги выгоняют клиентов.
Компании вроде Anthropic/Claude и «мелкие» стартапы не соблюдают rate-limit, не кешируют и маскируют ботов, хотя технически могли бы всё сделать правильно.
Админы вынуждены ставить CAPTCHA, login-wall, ASN-блоки, rate-limit и Cloudflare, что ломает accessibility и приватность для людей.
Пользователи ищут обходы: кто-то уходит к AI, кто-то отказывается от сайтов с капчами.
Общий вывод: боты «пьют молочный коктейль» открытого веба, пока сами компании не несут последствий.

Perplexity is using stealth, undeclared crawlers to evade no-crawl directives (blog.cloudflare.com) 🔥 Горячее 💬 Длинная дискуссия

—

by rrampage • 04 августа 2025 г. в 13:39 • 1282 points

Оригинал • HN

#web-crawling #no-crawl-directives #cloudflare

I find this problem quite difficult to solve:1. If I as a human request a website, then I should be shown the content. Everyone agrees.2. If I as the human request the software on my computer to modify the content before displaying it, for example by installing an ad-blocker into

AI web crawlers are destroying websites in their never-ending content hunger (theregister.com)

Комментарии (76)

Perplexity is using stealth, undeclared crawlers to evade no-crawl directives (blog.cloudflare.com) 🔥 Горячее 💬 Длинная дискуссия

Комментарии (741)