Hacker News Digest

Тег: #rate-limiting

Постов: 7

You Don't Need Anubis (fxgn.dev)

В последние годы скраперы, используемые компаниями для обучения LLM, стали более агрессивными, игнорируя robots.txt и маскируясь под обычных пользователей. Это привело к росту популярности Anubis — решения на основе proof-of-work, требующего от посетителей решения криптографической задачи перед доступом к сайту. Однако автор утверждает, что Anubis неэффективен против LLM-скраперов, так как те просто не выполняют JavaScript, а вычислительные затраты для обхода всех установок Anubис составляют примерно $0.00.

В качестве альтернативы предлагается простой 12-строчный Caddyfile, который устанавливает cookie через JavaScript, эффективно блокируя ботов без 10-секундной задержки для посетителей. Оба решения являются временными, так как боты могут научиться их обходить — Huawei уже умеет решать задачи Anubis. Автор подчеркивает, что если единственная проблема — ClaudeBot, лучше использовать менее раздражающие решения, а Cloudflare остается наиболее надежным, хоть и монопольным, способом защиты от ботов.

by flexagoon • 02 ноября 2025 г. в 04:03 • 119 points

ОригиналHN

#javascript#caddy#cloudflare#web-scraping#llm#rate-limiting

Комментарии (97)

  • Обсуждение в основном вращается вокруг того, что Anubis и подобные системы защиты от скрапинга, по сути, не решают проблему, а лишь создают неудобства для пользователей и разработчиков, и что это больше похоже на "security theater", чем на реальную защиту.
  • Участники обсуждения подчеркивают, что LLM и скраперы уже давно научились обходить такие системы, и что единственный эффект — это лишнее время загрузки для обычных пользователей.
  • Также поднимается вопрос о том, что вместо того, чтобы развивать "arms race" вокруг защиты от скрапинга, было бы лучше сосредоточиться на создании устойчивых и этичных решений, которые бы не требовали таких мер.
  • Некоторые участники также отмечают, что вместо того, чтобы полагаться на подобные системы, разработчики могли бы использовать более прогрессивные подходы, такие как rate limiting, требование авторизации для доступа к API и другие методы, которые не требуют от пользователей выполнения сложных вычислений.
  • В конце концов, обсуждение смещается к тому, что вместо того, чтобы продолжать "гонку вооружений", было бы более продуктивно сосредоточиться на создании более этичных и устойчивых решений, которые не требуют таких мер.

Anonymous credentials: rate-limit bots and agents without compromising privacy (blog.cloudflare.com)

Cloudflare анонсировал технологию анонимных учетных данных (anonymous credentials) для управления AI-агентами без компрометации приватности. С ростом популярности AI-агентов, которые будут выполнять задачи от заказа пиццы до написания кода, традиционные методы защиты становятся неэффективными. Существующие инструменты слишком грубые - блокировка одного агента может затронуть всех пользователей платформы. Анонимные учетные данные позволяют применять политики безопасности, такие как rate-limiting, без идентификации или отслеживания пользователей.

Технология находится в разработке в IETF как стандарт для работы across websites, browsers и platforms. Cloudflare планирует внести вклад в этот процесс, считая его критически важным для сохранения безопасности и приватности в эпоху AI. Это решение поможет справиться с растущим трафиком от AI-платформ, который, по прогнозам, скоро превысит трафик от традиционных источников, таких как мобильные устройства.

by eleye • 02 ноября 2025 г. в 00:45 • 86 points

ОригиналHN

#anonymous-credentials#rate-limiting#ietf#llm#cloudflare#security#privacy#api#arc#protocols

Комментарии (46)

  • Cloudflare продвигает протокол ARC (Anonymous Rate-Limited Credentials) как «решение» для проблемы, которую, по сути, создаёт сама же Cloudflare, вызывая вопросы о том, действительно ли это решение проблемы, или просто способ монетизации доступа к API.
  • Представленный подход требует, чтобы пользователю пришлось бы получать токены через кредитную карту, что вызывает вопросы о том, не является ли это просто способом взимать плату за доступ к открытым API.
  • В то же время, Cloudflare продолжает обслуживать очевидно вредоносные сайты, что вызывает критику со стороны общественности и ставит под сомнение их мотивы.
  • В обсуждении также поднимается вопрос о том, что если бы компании действительно хотела бы решить проблему злоупотребления API, они могли бы просто предоставить токены напрямую, вместо того чтобы требовать, чтобы пользователи проходили через их платформу.
  • В конце концов, обсуждение приходит к выводу, что вместо того, чтобы решать проблему, Cloudflare просто создаёт еще одну проблему, которую они же и решают с помощью своего же продукта.

Download responsibly (blog.geofabrik.de) 🔥 Горячее 💬 Длинная дискуссия

Geofabrik обновила сервер для скачивания данных OpenStreetMap, сделав загрузки быстрее и доступнее. Теперь запросы на файлы с суффиксом «…latest» автоматически перенаправляются на актуальную версию через HTTP-редирект.

Однако сервер сталкивается с проблемами из-за нерационального использования: некоторые пользователи массово скачивают одни и те же большие файлы (например, 20-ГБ данные Италии тысячи раз за сутки), что замедляет работу для всех и вынуждает блокировать IP-адреса, затрагивая и невинных. Geofabrik призывает скачивать ответственно: использовать единый планшетный файл с planet.openstreetmap.org для глобальных данных, применять pyosmium-up-to-date для инкрементных обновлений крупных регионов (это экономит 98% трафика) и контролировать автоматизированные скрипты во избежание сбоев.

by marklit • 22 сентября 2025 г. в 05:33 • 266 points

ОригиналHN

#openstreetmap#http#bittorrent#p2p#rate-limiting#api#ci-cd#pyosmium

Комментарии (185)

  • Предлагается использовать BitTorrent или аналогичные P2P-технологии для распределения нагрузки при скачивании больших файлов, таких как данные OSM.
  • Обсуждается необходимость внедрения базовых мер защиты: ограничение запросов (rate limiting), обязательная авторизация (API-ключи) для предотвращения злоупотреблений.
  • Основная проблема — безответственное использование ресурсов, часто из-за ошибок в автоматизированных скриптах и CI/CD-пайплайнах, которые многократно загружают одни и те же файлы.
  • Высказывается мнение, что часть пользователей не осознаёт последствий своих действий, и простые технические решения могли бы предотвратить проблему.
  • Отмечается, что некоторые корпоративные среды блокируют P2P-трафик, что ограничивает применимость решений на основе BitTorrent.

The web does not need gatekeepers: Cloudflare’s new “signed agents” pitch (positiveblue.substack.com) 🔥 Горячее 💬 Длинная дискуссия

by positiveblue • 29 августа 2025 г. в 16:35 • 425 points

ОригиналHN

#cloudflare#llm#bots#rate-limiting#robots.txt

Комментарии (426)

  • Участники спорят: нужен ли единый «привратник» (типа Cloudflare), чтобы защищать сайты от агрессивных ИИ-ботов, или это лишний централизованный контроль.
  • Многие жалуются, что крупные компании (Meta, OpenAI, Perplexity) игнорируют robots.txt и нагружают серверы.
  • Противники Cloudflare считают, что «публичное» должно оставаться публичным, а проблему можно решить простым rate-limiting и децентрализованными ID.
  • Часть пользователей готова платить или использовать invite-only доступ, лишь бы не было единого gatekeeper.
  • Пока нет открытого стандарта идентификации агентов, владельцам сайтов приходится либо доверять Cloudflare, либо играть в «кошки-мышки» с ботами.

Ban me at the IP level if you don't like me (boston.conman.org) 🔥 Горячее 💬 Длинная дискуссия

Thinkbot — бот, представляющийся строкой
Mozilla/5.0 (compatible; Thinkbot/0.5.8 … please_block_its_IP_address),
игнорирует robots.txt и предлагает просто банить его по IP.
За август он зашёл с 74 адресов, разбросанных по 41 сетевому блоку,
все принадлежат Tencent. Автор блокирует 40 подсетей Tencent,
покрывающих ≈ 476 590 IP-адресов, и подозревает,
что КНР внешне перекладывает затраты «Великого файрвола» на остальной мир.

by classichasclass • 25 августа 2025 г. в 04:23 • 518 points

ОригиналHN

#tencent#cloudflare#crowdsec#modsecurity#asn#ip-blocking#web-scraping#rate-limiting#captcha

Комментарии (387)

  • Большинство жалуется на агрессивных ботов, особенно из Китая (Tencent, Alibaba и др.); многие просто банят весь CN-диапазон ASN.
  • Роботы маскируются под браузеры, пренебрегают robots.txt и генерируют основную нагрузку; честные UA всё равно блокируют «на всякий случай».
  • Популярные защиты: Cloudflare + CrowdSec/ModSecurity, geoblock, rate-limit, tarpit, «zip-bomb» или ложные данные вместо 403.
  • Участники спорят о легитимности скрапинга и этике блокировок; предлагают whitelist-ASN, централизованные чёрные списки, CAPTCHA или авторизацию.
  • Итог: без идеального решения; все методы похожи на «кот и мышь», а модель «блокировать всё подозрительное» становится нормой.

How to make things slower so they go faster (gojiberries.io)

Как замедлить, чтобы ускорить

Синхронный спрос — когда множество клиентов действуют одновременно.
Пропускная способность μ, фоновая нагрузка λ₀, запас H = μ − λ₀.
M клиентов, синхронизированных по крону, кэшу или перезапуску, превышают H, образуют очереди, таймауты, ретраи и инцидент.
Цель — размазать пик или безопасно его слить, сохраняя справедливость и лимиты.

Источники выравнивания:

  • естественные — часы, TTL, SDK-таймеры;
  • индуцированные — деплой, рестарт, сброс кэша, обновление токенов;
  • внешние — DDoS, флеш-крауд.

Ограничения:

  • мягкие — задержка в очереди;
  • жёсткие — пулы соединений, дескрипторы, потоки.
    Превышение даёт обрыв: ещё одно соединение → таймаут → ретраи → ещё больше нагрузки.
    Важно, кто ждёт: онлайн-запросы требуют справедливости, офлайн — только пропускной способности.

Математика размагничивания
M действий равномерно в окне [0, W]:
ожидаемый пик M/W, средняя задержка W/2, произведение M/2 — константа.
Чем шире W, тем ниже пик, но выше средняя задержка.

Для выпуклой функции стоимости C(r) равномерное r(t)=M/W минимизирует ∫C(r)dt (неравенство Йенсена).
Равномерный джиттер оптимален и справедлив.

Практика

  1. Детерминированные границы:

    • M/W ≤ H ⇒ W ≥ M/H;
    • (M/W)·s ≤ K ⇒ W ≥ Ms/K (s — p95 времени обработки, K — свободная конкурентность).
  2. Вероятностные границы:
    Пусть N ~ Poisson(M/W). Требуем Pr{N > H} ≤ ε.
    Для H ≳ 50 нормальное приближение даёт
    λε ≈ ((-z₁₋ε + √(z₁₋ε² + 4(H+0.5)))/2)²,
    W ≥ M/λε.
    Для малых H или ε считать точный хвост Пуассона.

  3. Подсказки от сервера:

    • Retry-After: Δ → джиттер в [Δ, Δ+W];
    • rate-limit: R оставшихся запросов до сброса через Δ → λadm = min(H, R/Δ) → W ≥ M/λadm.
  4. Продуктовые ограничения:

    • дедлайн D ⇒ W ≤ D;
    • p95 добавленной задержки ≤ L ⇒ W ≤ L/0.95.

Минимально-ожидающая политика
Выбрать наименьший W, удовлетворяющий всем нижним границам и не превосходящий верхние.
Если невозможно — добавить мощность или ослабить ограничения.

by neehao • 24 августа 2025 г. в 05:10 • 106 points

ОригиналHN

#scalability#system-design#performance-optimization#queueing-theory#rate-limiting#jitter#facebook#go

Комментарии (26)

  • Участники обсуждают парадоксы, при которых «ускорение» ведёт к замедлению: парадокс Браесса, парадокс Джевонса.
  • Подчёркивается мысль «slow is smooth, and smooth is fast»: медленные, точные действия итогом быстрее и эффективнее, будь то код, строительство или музыка.
  • Пример Facebook: задержки и очереди используются как ресурс — задачи выполняются ближе к максимально допустимому времени отклика, повышая общую пропускную способность.
  • Упоминаются практические техники регулировки скорости: nanosleep по объёму данных, параметризуемые «тормоза» в долгих процессах.
  • Итог: оптимизация — это не просто «делать быстрее», а баланс скорости, точности и использования ограниченных ресурсов.

OpenFreeMap survived 100k requests per second (blog.hyperknot.com) 🔥 Горячее

OpenFreeMap выдержал 100 000 запросов/с

Внезапно сервис получил 3 млрд запросов за сутки и 215 ТБ трафика.
Пиковая нагрузка — 100 000 rps.
Стоимость такого трафика у конкурентов превысила бы $6 млн/мес.

Единственный замеченный сбой — nginx жаловался на «слишком много открытых файлов», но 96 % запросов успешно обслужены (200 OK), лишь 3,6 % вернули 206 Partial Content.
Система продолжала работать, Cloudflare кешировал даже «пустые» тайлы.

Причина всплеска — новый коллаборативный сайт рисования wplace.live, построенный на OpenFreeMap и ставший вирусным.

by hyperknot • 09 августа 2025 г. в 13:31 • 557 points

ОригиналHN

#nginx#cloudflare#openfreemap#wplace.live#http#rate-limiting

Комментарии (120)

  • На фоне внезапного хайпа wplace.live (2 млн пользователей, 3 млрд запросов) бесплатный OpenFreeMap получил «объятие смерти» ~1 000 rps, что выявило узкое место в лимите открытых файлов nginx.
  • Автор OFM защитил решение ограничить по Referrer и отказаться от IP-рейт-лимита, чтобы не блочить обычных пользователей.
  • Часть комментаторов считает, что бесплатный сервис не обязан выдерживать такую нагрузку; другие спорят, кто виноват — отсутствие лимитов или неожиданный виральный проект.
  • Обсуждаются альтернативы: Cloudflare-only хостинг, PMTiles-файлы, self-host, но все сходятся, что 96 % доступности при таком наплыве — уже успех.