Feed the bots

Автор столкнулся с проблемой агрессивных ботов, собирающих данные для обучения LLM, которые составили 99% трафика на его сервере. В отличие от поисковых роботов, эти боты игнорируют robots.txt, постоянно меняют IP-адреса и отправляют множество запросов в секунду. Попытки блокировать их через IP-списки, ограничения по скорости или защитные стены (CAPTCHA, paywall) оказались неэффективными, так как боты просто находили обходные пути, а защитные меры мешали обычным пользователям.

Самым эффективным решением оказалось создание динамического генератора бессмысленного контента — "Markov babbler", который потребляет всего около 60 микросекунд процессорного времени на запрос и использует 1.2 МБ памяти. Этот подход не требует поддержки черных списков и позволяет эффективно "кормить" ботов, не тратя ресурсы на передачу реальных данных. Автор подчеркивает, что его контент лицензирован CC BY-NC-SA 4.0, но явно не разрешен для использования в обучении ML/LLM.

Комментарии (180)

Основной метод борьбы с AI-скраперами — генерация бессмысленного контента через Markov-цепи или gzip-бомбы, чтобы увеличить затраты скраперов на обработку данных.
Этические риски: загрязнение обучающих данных LLM может привести к непредсказуемым последствиям и нарушению доверия к системам ИИ.
Технические альтернативы: использование Basic Auth с публичными учётными данными или редирект на специализированные сервисы вроде "Markov Babbler".
Проблема масштабирования: массовое применение методов защиты может привести к блокировке легитимного трафика и снижению репутации сайта.
Эффективность сомнительна: современные LLM могут детектировать мусорный контент, а скраперы легко обходят простые защиты (например, через браузерные прокси).