Hacker News Digest

10 ноября 2025 г. в 16:38 • research.roundtable.ai • ⭐ 101 • 💬 76

OriginalHN

#llm#recaptcha#google#claude#gemini#benchmarking

Benchmarking leading AI agents against Google reCAPTCHA v2

Исследователи протестировали три ведущие AI-модели на способность решать Google reCAPTCHA v2. Claude Sonnet 4.5 показал лучший результат с 60% успешных решений, немного обогнав Gemini 2.5 Pro (56%). GPT-5 значительно отстал с результатом всего 28%, что связано с его долгим и медленным процессом рассуждений, приводящим к постоянным тайм-аутам. Тесты показали, что производительность сильно зависит от типа CAPTCHA: все модели лучше справлялись со статичными заданиями и хуже всего — с кросс-тайл задачами.

Анализ выявил, что GPT-5 страдал от избыточных и навязчивых рассуждений, генерируя больше "мыслительных" токенов и постоянно редактируя свои решения. Эта проблема усугублялась плохим планированием и верификацией. В отличие от этого, Claude и Gemini демонстрировали более сбалансированный подход. Исследование подчеркивает, что в агрессивных средах с реальным временем выполнения скорость принятия решений так же важна, как и глубина рассуждений — иногда переосмысление приводит к такому же провалу, как и недостаток анализа.