You Don't Need Anubis
В последние годы скраперы, используемые компаниями для обучения LLM, стали более агрессивными, игнорируя robots.txt и маскируясь под обычных пользователей. Это привело к росту популярности Anubis — решения на основе proof-of-work, требующего от посетителей решения криптографической задачи перед доступом к сайту. Однако автор утверждает, что Anubis неэффективен против LLM-скраперов, так как те просто не выполняют JavaScript, а вычислительные затраты для обхода всех установок Anubис составляют примерно $0.00.
В качестве альтернативы предлагается простой 12-строчный Caddyfile, который устанавливает cookie через JavaScript, эффективно блокируя ботов без 10-секундной задержки для посетителей. Оба решения являются временными, так как боты могут научиться их обходить — Huawei уже умеет решать задачи Anubis. Автор подчеркивает, что если единственная проблема — ClaudeBot, лучше использовать менее раздражающие решения, а Cloudflare остается наиболее надежным, хоть и монопольным, способом защиты от ботов.
Комментарии (97)
- Обсуждение в основном вращается вокруг того, что Anubis и подобные системы защиты от скрапинга, по сути, не решают проблему, а лишь создают неудобства для пользователей и разработчиков, и что это больше похоже на "security theater", чем на реальную защиту.
- Участники обсуждения подчеркивают, что LLM и скраперы уже давно научились обходить такие системы, и что единственный эффект — это лишнее время загрузки для обычных пользователей.
- Также поднимается вопрос о том, что вместо того, чтобы развивать "arms race" вокруг защиты от скрапинга, было бы лучше сосредоточиться на создании устойчивых и этичных решений, которые бы не требовали таких мер.
- Некоторые участники также отмечают, что вместо того, чтобы полагаться на подобные системы, разработчики могли бы использовать более прогрессивные подходы, такие как rate limiting, требование авторизации для доступа к API и другие методы, которые не требуют от пользователей выполнения сложных вычислений.
- В конце концов, обсуждение смещается к тому, что вместо того, чтобы продолжать "гонку вооружений", было бы более продуктивно сосредоточиться на создании более этичных и устойчивых решений, которые не требуют таких мер.
Anonymous credentials: rate-limit bots and agents without compromising privacy
Cloudflare анонсировал технологию анонимных учетных данных (anonymous credentials) для управления AI-агентами без компрометации приватности. С ростом популярности AI-агентов, которые будут выполнять задачи от заказа пиццы до написания кода, традиционные методы защиты становятся неэффективными. Существующие инструменты слишком грубые - блокировка одного агента может затронуть всех пользователей платформы. Анонимные учетные данные позволяют применять политики безопасности, такие как rate-limiting, без идентификации или отслеживания пользователей.
Технология находится в разработке в IETF как стандарт для работы across websites, browsers и platforms. Cloudflare планирует внести вклад в этот процесс, считая его критически важным для сохранения безопасности и приватности в эпоху AI. Это решение поможет справиться с растущим трафиком от AI-платформ, который, по прогнозам, скоро превысит трафик от традиционных источников, таких как мобильные устройства.
Комментарии (46)
- Cloudflare продвигает протокол ARC (Anonymous Rate-Limited Credentials) как «решение» для проблемы, которую, по сути, создаёт сама же Cloudflare, вызывая вопросы о том, действительно ли это решение проблемы, или просто способ монетизации доступа к API.
- Представленный подход требует, чтобы пользователю пришлось бы получать токены через кредитную карту, что вызывает вопросы о том, не является ли это просто способом взимать плату за доступ к открытым API.
- В то же время, Cloudflare продолжает обслуживать очевидно вредоносные сайты, что вызывает критику со стороны общественности и ставит под сомнение их мотивы.
- В обсуждении также поднимается вопрос о том, что если бы компании действительно хотела бы решить проблему злоупотребления API, они могли бы просто предоставить токены напрямую, вместо того чтобы требовать, чтобы пользователи проходили через их платформу.
- В конце концов, обсуждение приходит к выводу, что вместо того, чтобы решать проблему, Cloudflare просто создаёт еще одну проблему, которую они же и решают с помощью своего же продукта.
Download responsibly 🔥 Горячее 💬 Длинная дискуссия
Geofabrik обновила сервер для скачивания данных OpenStreetMap, сделав загрузки быстрее и доступнее. Теперь запросы на файлы с суффиксом «…latest» автоматически перенаправляются на актуальную версию через HTTP-редирект.
Однако сервер сталкивается с проблемами из-за нерационального использования: некоторые пользователи массово скачивают одни и те же большие файлы (например, 20-ГБ данные Италии тысячи раз за сутки), что замедляет работу для всех и вынуждает блокировать IP-адреса, затрагивая и невинных. Geofabrik призывает скачивать ответственно: использовать единый планшетный файл с planet.openstreetmap.org для глобальных данных, применять pyosmium-up-to-date для инкрементных обновлений крупных регионов (это экономит 98% трафика) и контролировать автоматизированные скрипты во избежание сбоев.
Комментарии (185)
- Предлагается использовать BitTorrent или аналогичные P2P-технологии для распределения нагрузки при скачивании больших файлов, таких как данные OSM.
- Обсуждается необходимость внедрения базовых мер защиты: ограничение запросов (rate limiting), обязательная авторизация (API-ключи) для предотвращения злоупотреблений.
- Основная проблема — безответственное использование ресурсов, часто из-за ошибок в автоматизированных скриптах и CI/CD-пайплайнах, которые многократно загружают одни и те же файлы.
- Высказывается мнение, что часть пользователей не осознаёт последствий своих действий, и простые технические решения могли бы предотвратить проблему.
- Отмечается, что некоторые корпоративные среды блокируют P2P-трафик, что ограничивает применимость решений на основе BitTorrent.
The web does not need gatekeepers: Cloudflare’s new “signed agents” pitch 🔥 Горячее 💬 Длинная дискуссия
—
Комментарии (426)
- Участники спорят: нужен ли единый «привратник» (типа Cloudflare), чтобы защищать сайты от агрессивных ИИ-ботов, или это лишний централизованный контроль.
- Многие жалуются, что крупные компании (Meta, OpenAI, Perplexity) игнорируют robots.txt и нагружают серверы.
- Противники Cloudflare считают, что «публичное» должно оставаться публичным, а проблему можно решить простым rate-limiting и децентрализованными ID.
- Часть пользователей готова платить или использовать invite-only доступ, лишь бы не было единого gatekeeper.
- Пока нет открытого стандарта идентификации агентов, владельцам сайтов приходится либо доверять Cloudflare, либо играть в «кошки-мышки» с ботами.
Ban me at the IP level if you don't like me 🔥 Горячее 💬 Длинная дискуссия
Thinkbot — бот, представляющийся строкой
Mozilla/5.0 (compatible; Thinkbot/0.5.8 … please_block_its_IP_address),
игнорирует robots.txt и предлагает просто банить его по IP.
За август он зашёл с 74 адресов, разбросанных по 41 сетевому блоку,
все принадлежат Tencent. Автор блокирует 40 подсетей Tencent,
покрывающих ≈ 476 590 IP-адресов, и подозревает,
что КНР внешне перекладывает затраты «Великого файрвола» на остальной мир.
Комментарии (387)
- Большинство жалуется на агрессивных ботов, особенно из Китая (Tencent, Alibaba и др.); многие просто банят весь CN-диапазон ASN.
- Роботы маскируются под браузеры, пренебрегают robots.txt и генерируют основную нагрузку; честные UA всё равно блокируют «на всякий случай».
- Популярные защиты: Cloudflare + CrowdSec/ModSecurity, geoblock, rate-limit, tarpit, «zip-bomb» или ложные данные вместо 403.
- Участники спорят о легитимности скрапинга и этике блокировок; предлагают whitelist-ASN, централизованные чёрные списки, CAPTCHA или авторизацию.
- Итог: без идеального решения; все методы похожи на «кот и мышь», а модель «блокировать всё подозрительное» становится нормой.
How to make things slower so they go faster
Как замедлить, чтобы ускорить
Синхронный спрос — когда множество клиентов действуют одновременно.
Пропускная способность μ, фоновая нагрузка λ₀, запас H = μ − λ₀.
M клиентов, синхронизированных по крону, кэшу или перезапуску, превышают H, образуют очереди, таймауты, ретраи и инцидент.
Цель — размазать пик или безопасно его слить, сохраняя справедливость и лимиты.
Источники выравнивания:
- естественные — часы, TTL, SDK-таймеры;
- индуцированные — деплой, рестарт, сброс кэша, обновление токенов;
- внешние — DDoS, флеш-крауд.
Ограничения:
- мягкие — задержка в очереди;
- жёсткие — пулы соединений, дескрипторы, потоки.
Превышение даёт обрыв: ещё одно соединение → таймаут → ретраи → ещё больше нагрузки.
Важно, кто ждёт: онлайн-запросы требуют справедливости, офлайн — только пропускной способности.
Математика размагничивания
M действий равномерно в окне [0, W]:
ожидаемый пик M/W, средняя задержка W/2, произведение M/2 — константа.
Чем шире W, тем ниже пик, но выше средняя задержка.
Для выпуклой функции стоимости C(r) равномерное r(t)=M/W минимизирует ∫C(r)dt (неравенство Йенсена).
Равномерный джиттер оптимален и справедлив.
Практика
-
Детерминированные границы:
- M/W ≤ H ⇒ W ≥ M/H;
- (M/W)·s ≤ K ⇒ W ≥ Ms/K (s — p95 времени обработки, K — свободная конкурентность).
-
Вероятностные границы:
Пусть N ~ Poisson(M/W). Требуем Pr{N > H} ≤ ε.
Для H ≳ 50 нормальное приближение даёт
λε ≈ ((-z₁₋ε + √(z₁₋ε² + 4(H+0.5)))/2)²,
W ≥ M/λε.
Для малых H или ε считать точный хвост Пуассона. -
Подсказки от сервера:
- Retry-After: Δ → джиттер в [Δ, Δ+W];
- rate-limit: R оставшихся запросов до сброса через Δ → λadm = min(H, R/Δ) → W ≥ M/λadm.
-
Продуктовые ограничения:
- дедлайн D ⇒ W ≤ D;
- p95 добавленной задержки ≤ L ⇒ W ≤ L/0.95.
Минимально-ожидающая политика
Выбрать наименьший W, удовлетворяющий всем нижним границам и не превосходящий верхние.
Если невозможно — добавить мощность или ослабить ограничения.
Комментарии (26)
- Участники обсуждают парадоксы, при которых «ускорение» ведёт к замедлению: парадокс Браесса, парадокс Джевонса.
- Подчёркивается мысль «slow is smooth, and smooth is fast»: медленные, точные действия итогом быстрее и эффективнее, будь то код, строительство или музыка.
- Пример Facebook: задержки и очереди используются как ресурс — задачи выполняются ближе к максимально допустимому времени отклика, повышая общую пропускную способность.
- Упоминаются практические техники регулировки скорости: nanosleep по объёму данных, параметризуемые «тормоза» в долгих процессах.
- Итог: оптимизация — это не просто «делать быстрее», а баланс скорости, точности и использования ограниченных ресурсов.
OpenFreeMap survived 100k requests per second 🔥 Горячее
OpenFreeMap выдержал 100 000 запросов/с
Внезапно сервис получил 3 млрд запросов за сутки и 215 ТБ трафика.
Пиковая нагрузка — 100 000 rps.
Стоимость такого трафика у конкурентов превысила бы $6 млн/мес.
Единственный замеченный сбой — nginx жаловался на «слишком много открытых файлов», но 96 % запросов успешно обслужены (200 OK), лишь 3,6 % вернули 206 Partial Content.
Система продолжала работать, Cloudflare кешировал даже «пустые» тайлы.
Причина всплеска — новый коллаборативный сайт рисования wplace.live, построенный на OpenFreeMap и ставший вирусным.
Комментарии (120)
- На фоне внезапного хайпа wplace.live (2 млн пользователей, 3 млрд запросов) бесплатный OpenFreeMap получил «объятие смерти» ~1 000 rps, что выявило узкое место в лимите открытых файлов nginx.
- Автор OFM защитил решение ограничить по Referrer и отказаться от IP-рейт-лимита, чтобы не блочить обычных пользователей.
- Часть комментаторов считает, что бесплатный сервис не обязан выдерживать такую нагрузку; другие спорят, кто виноват — отсутствие лимитов или неожиданный виральный проект.
- Обсуждаются альтернативы: Cloudflare-only хостинг, PMTiles-файлы, self-host, но все сходятся, что 96 % доступности при таком наплыве — уже успех.