Hacker News Digest

10 ноября 2025 г. в 16:38 • research.roundtable.ai • ⭐ 101 • 💬 76

Original • HN

#llm #recaptcha #google #claude #gemini #benchmarking

Benchmarking leading AI agents against Google reCAPTCHA v2

Исследователи протестировали три ведущие AI-модели на способность решать Google reCAPTCHA v2. Claude Sonnet 4.5 показал лучший результат с 60% успешных решений, немного обогнав Gemini 2.5 Pro (56%). GPT-5 значительно отстал с результатом всего 28%, что связано с его долгим и медленным процессом рассуждений, приводящим к постоянным тайм-аутам. Тесты показали, что производительность сильно зависит от типа CAPTCHA: все модели лучше справлялись со статичными заданиями и хуже всего — с кросс-тайл задачами.

Анализ выявил, что GPT-5 страдал от избыточных и навязчивых рассуждений, генерируя больше "мыслительных" токенов и постоянно редактируя свои решения. Эта проблема усугублялась плохим планированием и верификацией. В отличие от этого, Claude и Gemini демонстрировали более сбалансированный подход. Исследование подчеркивает, что в агрессивных средах с реальным временем выполнения скорость принятия решений так же важна, как и глубина рассуждений — иногда переосмысление приводит к такому же провалу, как и недостаток анализа.

Комментарии (76)

Обсуждение показало, что современные модели всё ещё плохо справляются с задачами вроде cross-tile и reload, что подчеркивает ограничения текущих LLM в распознавании объектов и их границ.
Участники отметили, что Google reCAPTCHA влияет на поведение пользователей, включая задержки в ответах, что может влиять на точность.
Обсуждение подняло вопрос о том, что в будущем CAPTCHA может исчезнуть, если ИИ станет достаточно продвинутым, что ставит под вопросом саму необходимость CAPTCHA.
Участники обсудили, что вместо CAPTCHA можно было бы использовать более дружественные к пользователю методы, такие как двухфакторная аутентификация или анализ поведения, которые были бы менее исключающими.