Тег: #claude — Hacker News Digest

Benchmarking leading AI agents against Google reCAPTCHA v2 (research.roundtable.ai)

Исследователи протестировали три ведущие AI-модели на способность решать Google reCAPTCHA v2. Claude Sonnet 4.5 показал лучший результат с 60% успешных решений, немного обогнав Gemini 2.5 Pro (56%). GPT-5 значительно отстал с результатом всего 28%, что связано с его долгим и медленным процессом рассуждений, приводящим к постоянным тайм-аутам. Тесты показали, что производительность сильно зависит от типа CAPTCHA: все модели лучше справлялись со статичными заданиями и хуже всего — с кросс-тайл задачами.

Анализ выявил, что GPT-5 страдал от избыточных и навязчивых рассуждений, генерируя больше "мыслительных" токенов и постоянно редактируя свои решения. Эта проблема усугублялась плохим планированием и верификацией. В отличие от этого, Claude и Gemini демонстрировали более сбалансированный подход. Исследование подчеркивает, что в агрессивных средах с реальным временем выполнения скорость принятия решений так же важна, как и глубина рассуждений — иногда переосмысление приводит к такому же провалу, как и недостаток анализа.

by mdahardy • 10 ноября 2025 г. в 16:38 • 101 points

Модель	9:05	Lockout	Dreamhold	Lost Pig
Grok 4	86 %	15 %	46 %	33 %
Claude 4 Sonnet	80 %	30 %	53 %	46 %
Gemini 2.5 Flash	80 %	30 %	33 %	46 %
Gemini 2.5 Pro	80 %	30 %	40 %	40 %
DeepSeek R1	80 %	23 %	33 %	33 %
Claude 4 Opus	73 %	30 %	60 %	46 %
gpt-5 Chat	73 %	15 %	53 %	33 %
DeepSeek V3	66 %	23 %	20 %	33 %
gpt-4o	53 %	23 %	40 %	40 %
Qwen3 Coder	53 %	23 %	40 %	33 %
Kimi K2	53 %	30 %	46 %	40 %
glm 4.5	53 %	23 %	33 %	53 %
Claude 3.5 Haiku	38 %	15 %	26 %	26 %
Llama 3 Maverick	33 %	30 %	40 %	33 %
gpt-o3-mini	20 %	15 %	26 %	26 %
Mistral Small 3	20 %	15 %	0 %	20 %
gpt-4o-mini	13 %	23 %	20 %	40 %

Benchmarking leading AI agents against Google reCAPTCHA v2 (research.roundtable.ai)

Living Dangerously with Claude (simonwillison.net)

Claude Code vs. Codex: I built a sentiment dashboard from Reddit comments (aiengineering.report)

Managing context on the Claude Developer Platform (anthropic.com)

Gemini 3.0 Pro – early tests (twitter.com)

Potential issues in curl found using AI assisted tools (mastodon.social) 🔥 Горячее

Claude Sonnet 4.5 (anthropic.com) 🔥 Горячее 💬 Длинная дискуссия

Claude’s memory architecture is the opposite of ChatGPT’s (shloked.com) 🔥 Горячее 💬 Длинная дискуссия

How to use Claude Code subagents to parallelize development (zachwills.net) 🔥 Горячее

Using Claude Code SDK to reduce E2E test time (jampauchoa.substack.com)

A staff engineer's journey with Claude Code (sanity.io) 🔥 Горячее 💬 Длинная дискуссия

Search engine referral report for 2025 Q2 (radar.cloudflare.com)

The Default Trap: Why Anthropic's Data Policy Change Matters (natesnewsletter.substack.com)

If you have a Claude account, they're going to train on your data moving forward (old.reddit.com) 🔥 Горячее 💬 Длинная дискуссия

Updates to Consumer Terms and Privacy Policy (anthropic.com) 🔥 Горячее 💬 Длинная дискуссия

What makes Claude Code so damn good (minusx.ai) 🔥 Горячее 💬 Длинная дискуссия

1. Цикл

2. Промпты

3. Инструменты

4. Управление

Заключение

AI tooling must be disclosed for contributions (github.com) 🔥 Горячее 💬 Длинная дискуссия

Claudia – Desktop companion for Claude code (claudiacode.com) 🔥 Горячее 💬 Длинная дискуссия

IQ Tests Results for AI (trackingai.org) 💬 Длинная дискуссия

Что есть

Зачем

Откуда идея

FAQ (кратко)

Автор

Evaluating LLMs playing text adventures (entropicthoughts.com)

Optimizing my sleep around Claude usage limits (mattwie.se)

How I code with AI on a budget/free (wuu73.org) 🔥 Горячее 💬 Длинная дискуссия

GPT-5: "How many times does the letter b appear in blueberry?" (bsky.app) 🔥 Горячее 💬 Длинная дискуссия

I gave the AI arms and legs then it rejected me (grell.dev) 🔥 Горячее 💬 Длинная дискуссия

Anthropic revokes OpenAI's access to Claude (wired.com) 🔥 Горячее