Hacker News Digest

Тег: #crowdsec

Постов: 2

Messing with scraper bots (herman.bearblog.dev)

by HermanMartinus • 15 ноября 2025 г. в 07:38 • 218 points

ОригиналHN

#php#http#web-scraping#security#fail2ban#crowdsec#user-agent#ip-filtering

Комментарии (75)

  • Боты-сканеры ищут уязвимости через PHP-файлы, а не скрапят контент, и часто прерывают запросы после получения HTTP-кода.
  • Для борьбы используются методы: блокировка по заголовкам (например, отсутствие Accept-Language), honeypots с ложными файлами, генерация бесполезных данных (Nepenthes) или zip-бомбы.
  • Этический спор: публичный контент доступен для скрапинга, но агрессивные боты создают нагрузку на серверы, а AI-скраперы воруют контент без отдачи владельцам.
  • Эффективные стратегии: фильтрация по User-Agent, возврат ошибок (418 I'm a teapot), ограничение доступа по регионам или использование fail2ban/crowdsec.
  • Проблема AI-скраперов: они могут "отравлять" модели мусором, но их защита сложнее из-за обхода мер (например, residential-IP).

Ban me at the IP level if you don't like me (boston.conman.org) 🔥 Горячее 💬 Длинная дискуссия

Thinkbot — бот, представляющийся строкой
Mozilla/5.0 (compatible; Thinkbot/0.5.8 … please_block_its_IP_address),
игнорирует robots.txt и предлагает просто банить его по IP.
За август он зашёл с 74 адресов, разбросанных по 41 сетевому блоку,
все принадлежат Tencent. Автор блокирует 40 подсетей Tencent,
покрывающих ≈ 476 590 IP-адресов, и подозревает,
что КНР внешне перекладывает затраты «Великого файрвола» на остальной мир.

by classichasclass • 25 августа 2025 г. в 04:23 • 518 points

ОригиналHN

#tencent#cloudflare#crowdsec#modsecurity#asn#ip-blocking#web-scraping#rate-limiting#captcha

Комментарии (387)

  • Большинство жалуется на агрессивных ботов, особенно из Китая (Tencent, Alibaba и др.); многие просто банят весь CN-диапазон ASN.
  • Роботы маскируются под браузеры, пренебрегают robots.txt и генерируют основную нагрузку; честные UA всё равно блокируют «на всякий случай».
  • Популярные защиты: Cloudflare + CrowdSec/ModSecurity, geoblock, rate-limit, tarpit, «zip-bomb» или ложные данные вместо 403.
  • Участники спорят о легитимности скрапинга и этике блокировок; предлагают whitelist-ASN, централизованные чёрные списки, CAPTCHA или авторизацию.
  • Итог: без идеального решения; все методы похожи на «кот и мышь», а модель «блокировать всё подозрительное» становится нормой.