Тег: #captcha — Hacker News Digest

Blocking LLM crawlers without JavaScript (owl.is)

Это сообщение представляет собой проверку CAPTCHA на веб-странице, которая определяет, является ли посетитель человеком или роботом. Пользователю предлагается подождать секунду для проверки, а внизу страницы есть ссылка для роботов с инструкциями "залезьте сюда, если вы робот".

Проверка безопасности является стандартной практикой для защиты от автоматических ботов, которые могут спамить или нарушать работу сайта. Ссылка "/stick-och-brinn/" ведет на специальную страницу для подтверждения, что пользователь действительно является роботом, что является обратной логикой обычной CAPTCHA.

by todsacerdoti • 15 ноября 2025 г. в 23:30 • 180 points

Оригинал • HN

#captcha #web-security #bots #crawlers #web-scraping #ocr #pdf #user-agent #robots.txt #llm

Комментарии (86)

Методы блокировки LLM-краулеров включают создание "ловушек" (скрытые ссылки, невидимые для людей, но распознаваемые ботами), но они могут блокировать легитимных пользователей или RSS-ридеры.
LLM-краулеры часто игнорируют robots.txt, создают высокую нагрузку на сайты, используют спуфированные User-Agent и не соблюдают ограничения на частоту запросов.
Защита PDF-файлов от LLM-анализа практически невозможна, так как контент может быть извлечен через OCR или обход DRM; предлагается добавлять примечания для людей.
Агрессивные LLM-агенты могут генерировать тысячи запросов в минуту, перегружая серверы, в отличие от классических краулеров.
Этические вопросы включают использование LLM для рецензирования научных работ без согласия авторов и потенциальное манипулирование выводами модели.

Feed the bots (maurycyz.com) 🔥 Горячее 💬 Длинная дискуссия

Автор столкнулся с проблемой агрессивных ботов, собирающих данные для обучения LLM, которые составили 99% трафика на его сервере. В отличие от поисковых роботов, эти боты игнорируют robots.txt, постоянно меняют IP-адреса и отправляют множество запросов в секунду. Попытки блокировать их через IP-списки, ограничения по скорости или защитные стены (CAPTCHA, paywall) оказались неэффективными, так как боты просто находили обходные пути, а защитные меры мешали обычным пользователям.

Самым эффективным решением оказалось создание динамического генератора бессмысленного контента — "Markov babbler", который потребляет всего около 60 микросекунд процессорного времени на запрос и использует 1.2 МБ памяти. Этот подход не требует поддержки черных списков и позволяет эффективно "кормить" ботов, не тратя ресурсы на передачу реальных данных. Автор подчеркивает, что его контент лицензирован CC BY-NC-SA 4.0, но явно не разрешен для использования в обучении ML/LLM.

by chmaynard • 26 октября 2025 г. в 12:09 • 261 points

Оригинал • HN

#markov-chains #llm #scraping #web-security #robots.txt #captcha #machine-learning #web-servers

Комментарии (180)

Основной метод борьбы с AI-скраперами — генерация бессмысленного контента через Markov-цепи или gzip-бомбы, чтобы увеличить затраты скраперов на обработку данных.
Этические риски: загрязнение обучающих данных LLM может привести к непредсказуемым последствиям и нарушению доверия к системам ИИ.
Технические альтернативы: использование Basic Auth с публичными учётными данными или редирект на специализированные сервисы вроде "Markov Babbler".
Проблема масштабирования: массовое применение методов защиты может привести к блокировке легитимного трафика и снижению репутации сайта.
Эффективность сомнительна: современные LLM могут детектировать мусорный контент, а скраперы легко обходят простые защиты (например, через браузерные прокси).

Investigating a Forged PDF (mjg59.dreamwidth.org) 🔥 Горячее

Dreamwidth Studios использует CAPTCHA для проверки пользователей, чтобы предотвратить автоматизированные запросы и защитить платформу от спама и злоупотреблений. Пользователям предлагается пройти проверку перед выполнением действий, таких как вход в систему или публикация контента. Это стандартная мера безопасности, распространённая на многих веб-сайтах для обеспечения честного использования ресурсов.

Помимо CAPTCHA, сайт предоставляет дополнительные опции: восстановление пароля, вход через OpenID и настройки учётной записи. Также доступны разделы для создания аккаунта, исследования контента и покупки услуг, что делает платформу удобной и многофункциональной для пользователей.

by teddyh • 26 сентября 2025 г. в 00:14 • 259 points

Оригинал • HN

#captcha #openid #pdf #cybercrime #digital-signature #fraud #metadata #cryptography

Комментарии (37)

Рекомендации по обращению в правоохранительные и государственные программы по борьбе с киберпреступлениями (Калифорния, ФБР) и к юридическому совету компании-владельца сервиса подписания.
Обсуждение уязвимостей и недостатков цифрового подписания PDF-документов, включая возможность подделки метаданных и необходимость встроенной криптографической проверки.
Предложения по юридическим действиям: от требования возврата депозита до подачи гражданского иска или уголовного дела за подлог документов.
Важность наличия нескольких заверенных копий документа (в т.ч. цифровых) на случай спора, по аналогии с традиционной практикой у нотариусов.
Отсутствие финального разрешения ситуации с агенством на момент обсуждения; автор составляет жалобу в государственный департамент.

Find SF parking cops (walzr.com) 🔥 Горячее 💬 Длинная дискуссия

Приложение использует систему геймификации для повышения эффективности работы парковочных инспекторов. Оно создает лидерборды, где сотрудники соревнуются по количеству выписанных штрафов, времени реакции на нарушения и другим метрикам. Это мотивирует команду на более активные действия через дух соперничества и видимость достижений.

Система также предоставляет данные в реальном времени: карту с отмеченными нарушениями, статистику по районам и напоминания о патрулировании. Такой подход не только увеличивает продуктивность, но и помогает равномерно распределять усилия инспекторов, сокращая количество пропущенных нарушений.

by alazsengul • 23 сентября 2025 г. в 18:06 • 809 points

Оригинал • HN

#gamification #real-time-data #data-visualization #api #san-francisco #sfmta #captcha #data-privacy

Комментарии (444)

Власти Сан-Франциско оперативно заблокировали источник данных сайта после его запуска, но затем данные снова стали доступны.
Обсуждается алгоритм генерации номеров штрафов, предположительно использующий контрольную цифру по модулю 7.
Проект вызвал дискуссию о балансе между общественным интересом к данным и потенциальными рисками для сотрудников.
Упомянуты альтернативные источники данных: официальный открытый датасет SFMTA (с задержкой) и возможный слабый CAPTCHA на сайте платежной системы.
Участники высоко оценили техническую реализацию и предложили идеи для улучшения: heatmap, уведомления, "доска позора" для наименее активных офицеров.

Show HN: The text disappears when you screenshot it (unscreenshottable.vercel.app) 🔥 Горячее 💬 Длинная дискуссия

Нельзя сделать скриншот этого.

by zikero • 18 сентября 2025 г. в 02:18 • 494 points

Оригинал • HN

#web-development #vercel #web-security #accessibility #captcha

Комментарии (174)

Представлен эффект текста, который исчезает при попытке скриншота, но виден в движении.
Обсуждаются технические обходные пути: запись видео, наложение кадров, изменение масштаба или режимов съёмки.
Упоминаются аналогичные визуальные эффекты в играх (Branta Games) и на обложках альбомов (Soulwax).
Предлагаются потенциальные применения: защита конфиденциальных данных, CAPTCHA, недоступные для ИИ задачи.
Отмечаются проблемы доступности для людей с нарушениями зрения и вызываемая эффектом тошнота.
Поднимается вопрос о возможности создания обратного эффекта — текста, читаемого только на скриншоте.
Делается вывод, что метод не является абсолютной защитой, так как обходится видеозаписью.

I’m Not a Robot (neal.fun) 🔥 Горячее 💬 Длинная дискуссия

—

by meetpateltech • 16 сентября 2025 г. в 14:47 • 394 points

Оригинал • HN

#captcha #machine-learning #web-development #html5 #javascript #web-games

Комментарии (199)

Пользователи делятся впечатлениями от прохождения уровней игры, отмечая креативность и юмор, но некоторые столкнулись с техническими сложностями или сдались на сложных этапах.
Обсуждаются конкретные уровни: проблемы с точностью распознавания эмоций, сложности на мобильных устройствах, использование консольных команд для читерства и ироничный финал с сертификатом.
Затрагиваются философские вопросы о природе человека и автоматизации, а также технические аспекты реализации игры, такие как локальное выполнение ML-моделей и обход CAPTCHA.

AI web crawlers are destroying websites in their never-ending content hunger (theregister.com)

Проблема: боты OpenAI, Anthropic, Google и др. генерят до 45 % трафика сайтов, но не приносят денег и ломают инфраструктуру.
Последствия: сервера перегружаются, счета за трафик растут, а доход от рекламы не покрывает расходы.
Решения: блок-листы, rate-limit, Cloudflare Bot Management, «умные» robots.txt и платные API.

by CrankyBear • 02 сентября 2025 г. в 16:24 • 138 points

Оригинал • HN

#openai #anthropic #google #cloudflare #ddos #rate-limit #robots.txt #api #captcha #web-crawling

Комментарии (76)

Агрессивные AI-боты превратились в DDoS: малые сайты лежат, счета за трафик вырастают в разы, хостинги выгоняют клиентов.
Компании вроде Anthropic/Claude и «мелкие» стартапы не соблюдают rate-limit, не кешируют и маскируют ботов, хотя технически могли бы всё сделать правильно.
Админы вынуждены ставить CAPTCHA, login-wall, ASN-блоки, rate-limit и Cloudflare, что ломает accessibility и приватность для людей.
Пользователи ищут обходы: кто-то уходит к AI, кто-то отказывается от сайтов с капчами.
Общий вывод: боты «пьют молочный коктейль» открытого веба, пока сами компании не несут последствий.

Beginning 1 September, we will need to geoblock Mississippi IPs (dw-news.dreamwidth.org) 💬 Длинная дискуссия

Пройдите CAPTCHA, чтобы подтвердить запрос.
Нажмите «Войти» или создайте аккаунт.

Вход: имя аккаунта, пароль, «запомнить меня»
Забыли пароль? | Войти через OpenID

Меню

Создать аккаунт / настроить отображение
Искать: интересы, каталог, случайные журналы и сообщества
Магазин: услуги, подарки, мерч

Ссылки
Политика конфиденциальности • Условия • FAQ • Поддержка • Исходный код

by AndrewDucker • 27 августа 2025 г. в 20:03 • 219 points

Оригинал • HN

#geoblocking #vpn #openid #captcha #dreamwidth

Комментарии (254)

Пользователи обсуждают, как неуклюжие и противоречивые законы (Миссисипи, UK Online Safety Bill) заставляют сайты блокировать целые штаты и страны, хотя геоблокировка легко обходится VPN.
Все жалуются на невозможность отслеживать сотни подобных законов: запустил маленький сайт — и уже нарушил законы в семи штатах и тринадцати странах.
Поднимается вопрос: почему сайт, расположенный в другом штате или стране, должен подчиняться миссисипскому закону, если это межгосударственная или международная коммуникация?
Многие отмечают, что штрафы огромны ($10 000 за каждого «непроверенного» пользователя), а сроки вступления закона — буквально недели, что делает соблюдение невозможным для мелких площадок.
Итог: законодатели не понимают технологий, геолокация неточна, VPN всё равно всё обходит, а интернет всё больше дробится на «свободные» и «пуританские» зоны.

Ban me at the IP level if you don't like me (boston.conman.org) 🔥 Горячее 💬 Длинная дискуссия

Thinkbot — бот, представляющийся строкой
Mozilla/5.0 (compatible; Thinkbot/0.5.8 … please_block_its_IP_address),
игнорирует robots.txt и предлагает просто банить его по IP.
За август он зашёл с 74 адресов, разбросанных по 41 сетевому блоку,
все принадлежат Tencent. Автор блокирует 40 подсетей Tencent,
покрывающих ≈ 476 590 IP-адресов, и подозревает,
что КНР внешне перекладывает затраты «Великого файрвола» на остальной мир.

by classichasclass • 25 августа 2025 г. в 04:23 • 518 points

Оригинал • HN

#tencent #cloudflare #crowdsec #modsecurity #asn #ip-blocking #web-scraping #rate-limiting #captcha

Комментарии (387)

Большинство жалуется на агрессивных ботов, особенно из Китая (Tencent, Alibaba и др.); многие просто банят весь CN-диапазон ASN.
Роботы маскируются под браузеры, пренебрегают robots.txt и генерируют основную нагрузку; честные UA всё равно блокируют «на всякий случай».
Популярные защиты: Cloudflare + CrowdSec/ModSecurity, geoblock, rate-limit, tarpit, «zip-bomb» или ложные данные вместо 403.
Участники спорят о легитимности скрапинга и этике блокировок; предлагают whitelist-ASN, централизованные чёрные списки, CAPTCHA или авторизацию.
Итог: без идеального решения; все методы похожи на «кот и мышь», а модель «блокировать всё подозрительное» становится нормой.

It seems like the AI crawlers learned how to solve the Anubis challenges (social.anoxinon.de)

Codeberg: похоже, ИИ-боты научились обходить CAPTCHA.

by moelf • 15 августа 2025 г. в 17:01 • 86 points

Оригинал • HN

#captcha #llm #crawlers

Комментарии (78)

I just found out about this when it came to the front page of Hacker News. I really wish I was given advanced notice. I haven't been able to put as much energy into Anubis as I've wanted because I've been incredibly overwhelmed by life and need to be able to afford to make this m