Hacker News Digest

Тег: #web-scraping

Постов: 15

You Don't Need Anubis (fxgn.dev)

В последние годы скраперы, используемые компаниями для обучения LLM, стали более агрессивными, игнорируя robots.txt и маскируясь под обычных пользователей. Это привело к росту популярности Anubis — решения на основе proof-of-work, требующего от посетителей решения криптографической задачи перед доступом к сайту. Однако автор утверждает, что Anubis неэффективен против LLM-скраперов, так как те просто не выполняют JavaScript, а вычислительные затраты для обхода всех установок Anubис составляют примерно $0.00.

В качестве альтернативы предлагается простой 12-строчный Caddyfile, который устанавливает cookie через JavaScript, эффективно блокируя ботов без 10-секундной задержки для посетителей. Оба решения являются временными, так как боты могут научиться их обходить — Huawei уже умеет решать задачи Anubis. Автор подчеркивает, что если единственная проблема — ClaudeBot, лучше использовать менее раздражающие решения, а Cloudflare остается наиболее надежным, хоть и монопольным, способом защиты от ботов.

by flexagoon • 02 ноября 2025 г. в 04:03 • 119 points

Оригинал • HN

#javascript #caddy #cloudflare #web-scraping #llm #rate-limiting

Комментарии (97)

Обсуждение в основном вращается вокруг того, что Anubis и подобные системы защиты от скрапинга, по сути, не решают проблему, а лишь создают неудобства для пользователей и разработчиков, и что это больше похоже на "security theater", чем на реальную защиту.
Участники обсуждения подчеркивают, что LLM и скраперы уже давно научились обходить такие системы, и что единственный эффект — это лишнее время загрузки для обычных пользователей.
Также поднимается вопрос о том, что вместо того, чтобы развивать "arms race" вокруг защиты от скрапинга, было бы лучше сосредоточиться на создании устойчивых и этичных решений, которые бы не требовали таких мер.
Некоторые участники также отмечают, что вместо того, чтобы полагаться на подобные системы, разработчики могли бы использовать более прогрессивные подходы, такие как rate limiting, требование авторизации для доступа к API и другие методы, которые не требуют от пользователей выполнения сложных вычислений.
В конце концов, обсуждение смещается к тому, что вместо того, чтобы продолжать "гонку вооружений", было бы более продуктивно сосредоточиться на создании более этичных и устойчивых решений, которые не требуют таких мер.

AI scrapers request commented scripts (cryptography.dog) 💬 Длинная дискуссия

Автор обнаружил, что AI-скраперы запрашивают закомментированные JavaScript-файлы с его сайтов, вызывая ошибки 404. Эти запросы исходили как от явно вредоносных ботов (python-httpx, Go-http-client), так и от пользовательских агентов,伪装ившихся под обычные браузеры (Firefox, Chrome, Safari). Похоже, скраперы пытаются нелегально собирать контент для обучения больших языковых моделей.

Автор предлагает два возможных объяснения поведения: либо боты правильно парсят HTML-комментарии в поисках отключенных URL, либо используют примитивные методы сопоставления шаблонов. Он отмечает, что скраперы различаются по уровню сложности — одни используют актуальные строки user-agent, другие даже не меняют значения по умолчанию в HTTP-библиотеках.

В качестве контрмер автор предлагает алгоритмическое саботаже, начиная с публичного раскрытия этой уязвимости. Он классифицирует поведение ботов как фундаментальное (в отличие от случайных ошибок), так как для их работы необходимо запрашивать ресурсы, которые никогда не загружаются реальными пользователями. Автор уже внедрил меры по обнаружению таких запросов на своих сайтах и призывает других делать то же самое.

by ColinWright • 31 октября 2025 г. в 15:44 • 234 points

Оригинал • HN

#javascript #python #go #web-scraping #http #web-development #llm

Комментарии (181)

Обсуждение вращается вокруг этики веб-скрейпинга, причем акцент сместился с «как мы можем защититься от скрейперов» на «почему мы вообще должны считать, что скрейпинг — это что-то плохое».
Участники обсуждения поднимают вопросы: что считается «нелегальным» скрейпингом, кто должен нести ответственность за злоупотребление данными, и какие технические и правовые рамки должны регулировать эту сферу.
Разговор также затрагивает практические аспекты: какие методы могут быть использованы для защиты от скрейперов, и какие последствия это может иметь для веб-разработчиков и владельцев сайтов.
Некоторые участники поднимают вопросы о том, какие последствия это может иметь для разработчиков и владельцев сайтов, и какие практические шаги они могут предпринять для защиты своих ресурсов.
В конце обсуждение сместилось к тому, что участники начали обсуждать, какие именно технические и правовые рамки должны быть установлены для регулирования веб-скрейпинга, и какие последствия это может иметь для всех участников процесса.

Asking AI to build scrapers should be easy right? (skyvern.com)

Skyvern, инструмент для автоматизации браузерных задач с помощью ИИ, научился писать и поддерживать собственный код, что сделало его в 2,7 раза дешевле и в 2,3 раза быстрее. Идея возникла после запуска на Hacker News, где пользователи просили просто писать код вместо сложной настройки. Однако обучение ИИ создавать код оказалось сложной задачей из-за двух проблем: неоднозначных требований к автоматизации и "грязного" состояния веб-интерфейсов, где элементы часто ведут себя не так, как ожидалось.

Решением стали модели рассуждений, которые повысили точность работы агента до производственного уровня и позволили создавать код, похожий на написанный человеком. В примере автоматизации регистрации компаний на Delaware.gov показаны типичные сложности: связанные элементы управления, которые зависят друг от друга, и случайные сбои сайта. Вместо создания хрупких статических скриптов, которые ломаются при малейшем изменении, Skyvern использует ИИ для обработки непредвиденных ситуаций, сохраняя при этом эффективность сгенерированного кода.

by suchintan • 17 октября 2025 г. в 19:03 • 119 points

Оригинал • HN

#llm #automation #web-scraping #skyvern #openai #delaware.gov #hacker-news

Комментарии (55)

LLM-агенты стремятся к автономии в написании собственных инструментов, но пока не могут полностью заменить человека в сложных задачах.
Сторонние модели вроде Skyvern и OpenAI Operator демонстрируют, что LLM-агенты могут быть полезны, но их стоимость и ограничения важны для обсуждения.
Сторонние модели вроде Skyvern и OpenAI Operator демонстрируют, что LLM-агенты могут быть полезны, но их стоимость и ограничения важны для обсуждения.
Сторонние модели вроде Skyvern и OpenAI Operator демонстрируют, что LLM-агенты могут быть полезны, но их стоимость и ограничения важны для обсуждения.

Launch HN: Webhound (YC S23) – Research agent that builds datasets from the web

—

by mfkhalil • 25 сентября 2025 г. в 14:28 • 99 points

Оригинал • HN

#nextjs #nodejs #gemini #web-scraping #data-collection #b2b #venture-capital #robots.txt #linkedin #reddit

Комментарии (63)

Пользователи отмечают высокую полезность инструмента для автоматизации сбора данных и исследований, экономящей сотни часов ручного труда, особенно в B2B-сегменте и венчурном капитале.
Поднимаются вопросы о технических ограничениях: переусложнение простых задач, неполное извлечение данных с некоторых источников, проблемы с интерпретацией запросов и необходимость ручного вмешательства для уточнения.
Обсуждаются особенности архитектуры и UX: текстовый браузер с постоянным контекстом, интерактивный контроль над агентом, важность прозрачности процесса и возможность совместной работы в реальном времени.
Высказываются опасения по поводу соблюдения правил сканирования (robots.txt), законности сбора данных с таких платформ, как LinkedIn и Reddit, а также долгосрочной жизнеспособности модели ценообразования «unlimited».
Разработчики делятся техническим стеком (NextJS, NodeJS, Gemini 2.5 Flash, Firecrawl) и планами по улучшению, включая лучшую классификацию задач, навигацию по пагинации и более четкое различие с конкурентами.

A New Internet Business Model? (blog.cloudflare.com) 💬 Длинная дискуссия

За последние 15 лет интернет стал значительно безопаснее: доля зашифрованного трафика выросла с менее чем 10% до более 95%, во многом благодаря усилиям Cloudflare. Однако некоторые области, например внедрение IPv6, прогрессируют медленно, что увеличивает стоимость сетевой инфраструктуры и ограничивает новых участников.

Основная бизнес-модель интернета остаётся неизменной: создание контента, привлечение трафика и монетизация через рекламу, подписки или продажи. Эта система вознаграждения стимулировала наполнение сети ценными материалами, но также породила проблемы вроде кликбейта и низкокачественного контента, ориентированного на максимизацию вовлечения. Cloudflare сознательно избегала роли арбитра контента, считая, что ключ к улучшению — не цензура, а изменение incentives.

by mmaia • 22 сентября 2025 г. в 15:14 • 168 points

Оригинал • HN

#cloudflare #ipv6 #llm #web-scraping

Комментарии (164)

Обсуждается предложение Cloudflare о создании новой бизнес-модели, где AI-компании платят за скрейпинг контента, а часть средств получают создатели.
Высказываются опасения, что это приведет к появлению нового посредника (Cloudflare) и монополизации, что может убить открытый интернет и затруднить вход на рынок новым игрокам.
Участники сомневаются в эффективности модели и справедливом распределении доходов, проводя параллели с проблемами существующих систем (например, App Store, AdSense).
Поднимается вопрос о том, что считать контентом, достойным оплаты, и как быть с синтетическими данными, созданными AI на основе первоисточников.
Обсуждается ностальгия по старой, более децентрализованной модели интернета и скептицизм по поводу возможности вернуться к ней или создать справедливую новую.

Feedmaker: URL + CSS selectors = RSS feed (feedmaker.fly.dev)

Сервис позволяет создавать RSS-ленты из любого сайта, указывая CSS-селекторы для заголовков, описаний и ссылок. Пользователь вводит URL, задаёт название фида и выбирает элементы для парсинга — например, самые читаемые статьи Washington Post или джазовые обзоры на Bandcamp.

Можно включать метаданные, обрезать параметры ссылок и тестировать результат перед генерацией. Инструмент полезен для автоматизации подписок на контент, который изначально не поддерживает RSS, или для создания персонализированных дайджестов.

by mustaphah • 19 сентября 2025 г. в 21:14 • 157 points

Оригинал • HN

#rss #css #html #web-scraping #django #cloudflare-workers #xslt #freshrss

Комментарии (28)

Обсуждаются различные инструменты и подходы для создания RSS-лент из веб-страниц, включая самописные скрипты, готовые решения и использование XSLT.
Поднимаются вопросы о весе зависимостей (например, Django), производительности и возможности бесплатного хостинга на платформах вроде Cloudflare Workers.
Участники делятся альтернативами, такими как RSS-Bridge, FreshRSS и инструменты для парсинга HTML с помощью CSS-селекторов.
Обсуждаются технические детали RSS/Atom, такие как необходимость GUID и дат для совместимости с читалками.
Отмечаются проблемы с надежностью подобных инструментов на современном вебе, включая некорректную работу режима чтения в браузерах.

Show HN: Find Hidden Gems on HN (pj4533.com)

HN Overlooked – ищет свежие, но незамеченные посты на Hacker News.

Фильтры: ≥500 символов, ≤50 голосов, ≤10 комментариев.
Анализируются ленты Ask, Show и New за последние 3–7 дней.

Passion Score = (длина / 500, но не более 10) ÷ (голосы + комментарии×2 + 1).
Чем выше значение, тем больше текста и меньше внимания — идеальные «скрытые жемчужины».

by pj4533 • 29 августа 2025 г. в 13:56 • 88 points

Оригинал • HN

#hackernews #web-scraping

Комментарии (18)

Пользователи оценили идею «Second Chance Pool», но предложили добавить /random-эндпоинт, который случайно показывает посты из нескольких неофициальных лент HN.
Некоторые сомневаются, что «passion score» (длинные, но малообсуждаемые посты) действительно отражает качество: тексты могут быть просто многословными, а короткие — ценными.
Появились пожелания добавить фильтры по типам постов, поиск «controversial» комментариев и санитайз заголовков.
Участники предлагают использовать репутацию автора или обучить LLM для более точного поиска «скрытых жемчужин».

Ban me at the IP level if you don't like me (boston.conman.org) 🔥 Горячее 💬 Длинная дискуссия

Thinkbot — бот, представляющийся строкой
Mozilla/5.0 (compatible; Thinkbot/0.5.8 … please_block_its_IP_address),
игнорирует robots.txt и предлагает просто банить его по IP.
За август он зашёл с 74 адресов, разбросанных по 41 сетевому блоку,
все принадлежат Tencent. Автор блокирует 40 подсетей Tencent,
покрывающих ≈ 476 590 IP-адресов, и подозревает,
что КНР внешне перекладывает затраты «Великого файрвола» на остальной мир.

by classichasclass • 25 августа 2025 г. в 04:23 • 518 points

Оригинал • HN

#tencent #cloudflare #crowdsec #modsecurity #asn #ip-blocking #web-scraping #rate-limiting #captcha

Комментарии (387)

Большинство жалуется на агрессивных ботов, особенно из Китая (Tencent, Alibaba и др.); многие просто банят весь CN-диапазон ASN.
Роботы маскируются под браузеры, пренебрегают robots.txt и генерируют основную нагрузку; честные UA всё равно блокируют «на всякий случай».
Популярные защиты: Cloudflare + CrowdSec/ModSecurity, geoblock, rate-limit, tarpit, «zip-bomb» или ложные данные вместо 403.
Участники спорят о легитимности скрапинга и этике блокировок; предлагают whitelist-ASN, централизованные чёрные списки, CAPTCHA или авторизацию.
Итог: без идеального решения; все методы похожи на «кот и мышь», а модель «блокировать всё подозрительное» становится нормой.

AI crawlers, fetchers are blowing up websites; Meta, OpenAI are worst offenders (theregister.com)

Fastly: боты для ИИ атакуют сайты до 39 000 запросов в минуту
CDN-провайдер зафиксировал всплеск автоматического сканирования, когда модели собирают данные для обучения.

Пиковая нагрузка: 39 000 обращений/мин (≈ 650 в секунду)
Основной инструмент: библиотека python-httpx, User-Agent «ImagesiftBot»
Цели: медиа-файлы, API-документация, старые URL-ы
Последствия: рост счёта за трафик и риск DDoS.

Рекомендации Fastly: фильтровать по User-Agent и ASN, ставить rate-limit, использовать WAF.

by rntn • 21 августа 2025 г. в 11:35 • 174 points

Оригинал • HN

#python #httpx #cloudflare #ddos #web-scraping #llm #openai #meta

Комментарии (95)

AI-компании массово и агрессивно скрапят сайты, игнорируя robots.txt и rate-limits, что приводит к сбоям, росту трат и вынужденному закрытию доступа.
Пострадавшие владельцы маленьких ресурсов вынуждены ставить Cloudflare, Anubis, honeypot-ловушки и полностью банить ботов, ухудшая опыт обычных пользователей.
Часть участников считает проблему не технической, а регуляторной: корпорации сознательно нарушают правила, полагаясь на армию юристов.
Некоторые предлагают добровольно отдавать данные пакетами (tar-файлы), но боты даже официальные каналы скачивания игнорируют.

Launch HN: Channel3 (YC S25) – A database of every product on the internet

—

by glawrence13 • 20 августа 2025 г. в 15:34 • 126 points

Оригинал • HN

#affiliate-marketing #web-scraping #ecommerce #startups

Комментарии (80)

Пользователи жалуются на плохой поиск: результаты нерелевантны, фильтры по цене не работают, а товары без цен или с нулевой стоимостью.
Неясно, для кого продукт: для конечных покупателей или для разработчиков, которые хотят монетизировать трафик через единый аффилиат.
Модель вызывает сомнения: $7 за 1000 запросов кажется дорого, а скрапинг данных маркетплейсов может привести к судебным искам.
Плюсы: не нужно самому регистрироваться в десятках аффилиат-программ — всё делает сервис и делится комиссией.
Команда признаёт проблемы с поиском и обещает быстро улучшить релевантность и фильтры.

Closer to the Metal: Leaving Playwright for CDP (browser-use.com)

Прощай, Playwright — здравствуй, CDP
Мы отказались от Playwright и перешли на «родной» Chrome DevTools Protocol. Это ускорило извлечение элементов, скриншоты и действия, добавило асинхронные реакции и нормальную работу с кросс-доменными iframe.

Проклятие абстракции
Playwright скрывает важные детали, вносит лишнюю задержку через WebSocket-прокси и не нужен для узких задач AI-агентов. Мы решили реализовать только нужные вызовы сами.

Краткая история автоматизации браузеров

2011–2017: PhantomJS → Chrome Remote Debugging → WebKit RDP → CDP.
2017: Headless Chrome + Puppeteer.
2018: WebDriver стал W3C-стандартом.
2020: бывшие разработчики Puppeteer создали Playwright.
2023–2024: WebDriver BiDi в ChromeDriver и Puppeteer.

Современные драйверы
pydoll, go-rod, chromedp, puppeteer, playwright, selenium, cypress, appium.
Но ни один не подошёл, поэтому мы написали собственный cdp-use.

by gregpr07 • 20 августа 2025 г. в 15:32 • 155 points

Оригинал • HN

#playwright #chrome-devtools-protocol #puppeteer #selenium #chromium #webdriver #automation #web-scraping

Комментарии (103)

Автор перенёс Playwright, Browser Use и Selenium в расширения Chrome, отказавшись от CDP и полагаясь на DOM- и extension-API.
Сообщество спорит: кто-то считает это «NIH-синдромом», другие — полезным способом избежать фингерпринтинга и ускорить работу.
Поднимаются вопросы о Firefox (без CDP), ограничениях расширений и невозможности автоматизировать другие расширения.
Некоторые напоминают, что Selenium/подобные инструменты работали уже до 2011, и «тёмные века» — субъективны.
Итог: проект пока ориентирован на Chromium-браузеры, CDP всё ещё используется для снимков и фреймов, а полный переход на extension-only решает не все задачи.

Anna's Archive: An Update from the Team (annas-archive.org) 🔥 Горячее 💬 Длинная дискуссия

Мы живы и продолжаем борьбу: усиливаем инфраструктуру и безопасность. С 2022 г. спасли десятки миллионов книг, статей, газет — теперь они защищены от катастроф через торрент-сеть.

Провели крупнейшие скрапы: IA CDL, HathiTrust, DuXiu и др. Опубликовали рекордные метаданные WorldCat и Google Books, чтобы найти и приоритизировать редкие издания.

Партнёрства: два форка LibGen, STC/Nexus, Z-Library — добавили ещё десятки миллионов файлов и зеркалируют наши данные. Один форк LibGen исчез; подробностей нет.

Появился WeLib: зеркалируют нашу коллекцию и форк кода, но не делятся новыми материалами и улучшениями. Не рекомендуем пользоваться.

На серверах сотни терабайт новых коллекций ждут обработки. Нужны волонтёры и пожертвования — бюджет минимален.

Держитесь.
— Anna и команда

by jerheinze • 18 августа 2025 г. в 16:31 • 975 points

Оригинал • HN

#torrent #libgen #z-library #web-scraping #metadata #digital-preservation #ddos

Комментарии (463)

Пользователи хвалят Anna’s Archive как «одно из последних хороших мест в интернете», подчеркивая удобство предварительного ознакомления перед покупкой и помощь в поиске редких изданий.
Некоторые авторы и правообладатели возмущены: книги выкладывают без разрешения, лишая доходов.
Участники обсуждают, как Meta и другие гиганты бесплатно «скребут» данные, а сами сайты-зеркала тратят деньги на хостинг.
Поднимаются вопросы долгосрочного выживания: DDoS-атаки, блокировки, отсутствие onion-домена, но есть торренты и система волонтёров.
Часть аудитории признаёт, что пользуется пиратскими копиями как «пробниками», а затем покупает бумажные или DRM-free версии, чтобы поддержать авторов.

Japan's largest paper, Yomiuri Shimbun, sues Perplexity for copyright violations (niemanlab.org)

Истец: крупнейшая японская газета «Ёмюри симбун».
Ответчик: стартап Perplexity.
Суть: в Токийском райсуде подан первый в Японии иск к ИИ-компании о нарушении авторских прав.
Обвинение: Perplexity с февраля по июнь 2025 года 119 467 раз скрапил статьи «Ёмюри» и использовал их в ответах чат-бота без разрешения.

by aspenmayer • 12 августа 2025 г. в 00:07 • 143 points

Оригинал • HN

#copyright #llm #web-scraping #perplexity #yomiuri-shimbun

Комментарии (64)

Японское право разрешает ИИ-тренировку на защищённых материалах без согласия, но запрещает прямое воспроизведение и распространение.
«Ёмиури» подало иск к Perplexity именно за массовое копирование статей и заголовков, а не за само обучение.
Участники обсуждения подчеркивают двойные стандарты: корпорации могут нарушать авторское право в большом масштабе, пока их не остановят, тогда как физлица пресекаются быстрее.
Некоторые считают, что выгода от ИИ концентрируется у узкого круга, в то время как тренировочные данные предоставляет общество.
Предлагаются идеи создать фонд для коллективных исков к разработчикам ИИ и, наоборот, фонд для защиты ИИ-разработки от «авторского максимализма».

One Million Screenshots (onemillionscreenshots.com)

Миллион скриншотов
Увеличьте главные страницы интернета.
Поиск сайта: ⌘K или случайный выбор.

by gaws • 10 августа 2025 г. в 20:30 • 243 points

Оригинал • HN

#web-design #web-scraping #ssl #dns #api

Комментарии (83)

Проект OneMillionScreenshots показывает скриншоты топ-1 000 000 сайтов в виде интерактивной «карты».
Часть пользователей жалуется на SSL-ошибки, блокировку DNS и поломку кнопки «Назад».
Большинство отмечает однообразие современного веб-дизайна и коммерциализацию интернета.
Некоторые просят фильтров по нишевым или старым сайтам, а также API-фич и мозаичных раскладок.
Создатели подтвердили, что визуализация устарела, но данные обновляются ежемесячно и доступны через ScreenshotOf.com.

Open Lovable (github.com)

open-lovable — утилита от mendableai, клонирует любой сайт и превращает его в современное React-приложение за секунды.

Репозиторий публичный, доступен на GitHub.

by iamflimflam1 • 10 августа 2025 г. в 10:10 • 152 points

Оригинал • HN

#reactjs #firecrawl #e2b.dev #github #web-scraping

Комментарии (43)

Проект называется «open-lovable», но не является ни клоном, ни открытой версией Lovable; требует внешние API-ключи (Firecrawl, e2b.dev) и не работает локально без них.
Участники спорят о допустимости имени, считая его потенциальным нарушением товарного знака и маркетинговым «рост-хаком».
Основная критика: жёсткая завязка на Firecrawl для скрапинга и отсутствие полностью FOSS-варианта всей цепочки.
Предлагают альтернативы — bolt.diy, Modal, Daytona, freestyle.sh — и способы самостоятельно развернуть e2b/Firecracker.
Некоторые хотели бы обратную задачу: превращение React-приложений в «нормальные» сайты без JS или в нативные веб-приложения.