Тег: #crowdsec — Hacker News Digest

Messing with scraper bots (herman.bearblog.dev)

—

by HermanMartinus • 15 ноября 2025 г. в 07:38 • 218 points

#php #http #web-scraping #security #fail2ban #crowdsec #user-agent #ip-filtering

Комментарии (75)

Боты-сканеры ищут уязвимости через PHP-файлы, а не скрапят контент, и часто прерывают запросы после получения HTTP-кода.
Для борьбы используются методы: блокировка по заголовкам (например, отсутствие Accept-Language), honeypots с ложными файлами, генерация бесполезных данных (Nepenthes) или zip-бомбы.
Этический спор: публичный контент доступен для скрапинга, но агрессивные боты создают нагрузку на серверы, а AI-скраперы воруют контент без отдачи владельцам.
Эффективные стратегии: фильтрация по User-Agent, возврат ошибок (418 I'm a teapot), ограничение доступа по регионам или использование fail2ban/crowdsec.
Проблема AI-скраперов: они могут "отравлять" модели мусором, но их защита сложнее из-за обхода мер (например, residential-IP).

Ban me at the IP level if you don't like me (boston.conman.org) 🔥 Горячее 💬 Длинная дискуссия

Thinkbot — бот, представляющийся строкой
Mozilla/5.0 (compatible; Thinkbot/0.5.8 … please_block_its_IP_address),
игнорирует robots.txt и предлагает просто банить его по IP.
За август он зашёл с 74 адресов, разбросанных по 41 сетевому блоку,
все принадлежат Tencent. Автор блокирует 40 подсетей Tencent,
покрывающих ≈ 476 590 IP-адресов, и подозревает,
что КНР внешне перекладывает затраты «Великого файрвола» на остальной мир.

by classichasclass • 25 августа 2025 г. в 04:23 • 518 points

Оригинал • HN

#tencent #cloudflare #crowdsec #modsecurity #asn #ip-blocking #web-scraping #rate-limiting #captcha

Комментарии (387)

Большинство жалуется на агрессивных ботов, особенно из Китая (Tencent, Alibaba и др.); многие просто банят весь CN-диапазон ASN.
Роботы маскируются под браузеры, пренебрегают robots.txt и генерируют основную нагрузку; честные UA всё равно блокируют «на всякий случай».
Популярные защиты: Cloudflare + CrowdSec/ModSecurity, geoblock, rate-limit, tarpit, «zip-bomb» или ложные данные вместо 403.
Участники спорят о легитимности скрапинга и этике блокировок; предлагают whitelist-ASN, централизованные чёрные списки, CAPTCHA или авторизацию.
Итог: без идеального решения; все методы похожи на «кот и мышь», а модель «блокировать всё подозрительное» становится нормой.