Benchmarking leading AI agents against Google reCAPTCHA v2
Исследователи протестировали три ведущие AI-модели на способность решать Google reCAPTCHA v2. Claude Sonnet 4.5 показал лучший результат с 60% успешных решений, немного обогнав Gemini 2.5 Pro (56%). GPT-5 значительно отстал с результатом всего 28%, что связано с его долгим и медленным процессом рассуждений, приводящим к постоянным тайм-аутам. Тесты показали, что производительность сильно зависит от типа CAPTCHA: все модели лучше справлялись со статичными заданиями и хуже всего — с кросс-тайл задачами.
Анализ выявил, что GPT-5 страдал от избыточных и навязчивых рассуждений, генерируя больше "мыслительных" токенов и постоянно редактируя свои решения. Эта проблема усугублялась плохим планированием и верификацией. В отличие от этого, Claude и Gemini демонстрировали более сбалансированный подход. Исследование подчеркивает, что в агрессивных средах с реальным временем выполнения скорость принятия решений так же важна, как и глубина рассуждений — иногда переосмысление приводит к такому же провалу, как и недостаток анализа.
Комментарии (76)
- Обсуждение показало, что современные модели всё ещё плохо справляются с задачами вроде cross-tile и reload, что подчеркивает ограничения текущих LLM в распознавании объектов и их границ.
- Участники отметили, что Google reCAPTCHA влияет на поведение пользователей, включая задержки в ответах, что может влиять на точность.
- Обсуждение подняло вопрос о том, что в будущем CAPTCHA может исчезнуть, если ИИ станет достаточно продвинутым, что ставит под вопросом саму необходимость CAPTCHA.
- Участники обсудили, что вместо CAPTCHA можно было бы использовать более дружественные к пользователю методы, такие как двухфакторная аутентификация или анализ поведения, которые были бы менее исключающими.
Living Dangerously with Claude
Саймон Уиллисон на встрече Claude Code Anonymous в Сан-Франциско рассказал о дилемме между огромной пользой от запуска кодогенерирующих агентов с минимальными ограничениями и сопутствующими рисками. Он представил флаг --dangerously-skip-permissions (или "YOLO mode"), который, по его словам, превращает Claude Code в совершенно другой продукт. В обычном режиме требуется постоянное внимание и подтверждение действий, а в YOLO-режиме агент может самостоятельно решать сложные задачи, пока пользователь занимается другими делами.
За последние 48 часов Уиллисон с помощью YOLO-режима выполнил три проекта: развернул DeepSeek-OCR на NVIDIA Spark за 40 минут, создал демонстрацию работы Pyodide в Node.js для выполнения Python-кода в WebAssembly, и разработал инструмент для анализа репозиториев с помощью SLOCCount. Он подчеркнул, что многие недооценивают ценность кодогенерирующих агентов, никогда не испытав YOLO-режим во всей его мощи, но при этом выразил обеспокоенность потенциальными рисками предоставления ИИ таких широких полномочий.
Комментарии (82)
- Обсуждение в основном вращается вокруг безопасности и ограничений при использовании LLM-агентов: участники обсуждают, насколько важно «сэндбоксить» их действия, чтобы избежать непредвиденных последствий, и какие именно границы должны быть установлены.
- Участники также обсуждают, какие именно ограничения накладывает Anthropic на своих моделей, включая то, что они не могут читать или редактировать файлы, запускать код, или использовать интернет без разрешения.
- Некоторые участники высказывают мнение, что Anthropic может быть слишком осторожна в ограничении способностей моделей, в то время как другие считают, что эти ограничения необходимы для безопасности и предотвращения злоупотреблений.
- Также обсуждается, как именно Anthropic тестирует свои модели на предмет безопасности и как они могут быть улучшены.
- Наконец, участники обсуждают, какие именно последствия могут иметь использование агентов без надлежащих мер предосторожности и какие меры предосторожности могут быть реализованы.
Комментарии (50)
- Пользователи активно обсуждают, что Codex и Claude Code ведут себя как «боты» и подозревают, что за ними стоит продвижение со стороны OpenAI и Anthropic соответственно.
- Сообщество разделилось на два лагеря: одни считают, что Codex лучше для крупных задач, другие — что Claude Code лучше для быстрых итераций.
- Некоторые пользователи жалуются на то, что Codex не может запускать суб-агентов и страдает от ограничений контекста, в то время как другие утверждают, что Claude Code не справляется с большими задачами.
- Участники обсуждают, что обе модели имеют свои сильные и слабые стороны, и выбор между ними часто сводится к личным предпочтениям и специфике задачи.
Managing context on the Claude Developer Platform
На платформе разработчиков Claude появились инструменты для управления контекстом: автоматическое редактирование контекста и инструмент памяти. Редактирование контекста удаляет устаревшие результаты инструментов при приближении к лимиту токенов, сохраняя ход беседы и повышая производительность. Инструмент памяти позволяет Клоду сохранять информацию во внешних файлах, создавая базу знаний, сохраняемую между сессиями.
Внутренние тесты показывают, что совместное использование этих функций улучшает производительность агентов на 39%, а одно лишь редактирование контекста — на 29%. В 100-шаговом веб-поиске потребление токенов сократилось на 84%. Эти возможности уже доступны в публичной бета-версии на платформе Claude, Amazon Bedrock и Google Cloud Vertex AI.
Комментарии (83)
- Пользователи обсуждают новые функции управления контекстом и памятью в LLM, такие как автоматическое удаление устаревших данных и сохранение критической информации
- Высказываются предложения по улучшению: редактирование контекста на стороне сервера, стандартизация API между провайдерами, интеграция с UI-инструментами
- Отмечается, что многие функции уже реализованы в сторонних решениях, но официальная поддержка улучшает developer experience
- Обсуждаются технические сложности: проблемы с hallucinations при редактировании контекста, баланс между агентами, многозадачное оркестрирование
- Некоторые пользователи выражают скептицизм относительно новизны функций и обеспокоенность по поводу vendor lock-in
Gemini 3.0 Pro – early tests
Социальная сеть X (ранее Twitter) требует включённого JavaScript для работы. При его отключении пользователь видит сообщение о необходимости активировать JavaScript или сменить браузер на поддерживаемый, со ссылкой на список совместимых браузеров.
Также упоминается, что проблемы могут вызывать расширения для приватности — их советуют отключить. Внизу страницы приведены стандартные ссылки на условия использования, политики и информацию о рекламе.
Комментарии (109)
- Критика отсутствия у Google сильной продуктовой культуры, что мешает созданию инновационных продуктов на основе их же технологий.
- Обсуждение субъективности сравнения моделей ИИ (Gemini, GPT, Claude) и сложности объективной оценки из-за различий в задачах и опыте пользователей.
- Скептицизм по поводу рекламных кампаний и хайпа вокруг новых моделей, которые часто не соответствуют реальным возможностям.
- Подчеркивание проблем Gemini с многократным выполнением инструкций и склонностью к "зацикливанию" по сравнению с конкурентами.
- Отмечается сильная мультимодальность Gemini (работа с изображениями, видео), но сложность доступа и использования продуктов Google AI.
Potential issues in curl found using AI assisted tools 🔥 Горячее
Даниель Стенберг получил от Джошуа Роджерса огромный список потенциальных уязвимостей в curl, включая более 100 потенциальных проблем. Это привело к интенсивному анализу и исправлению кода, что подчеркивает важность краудсорсинга в безопасности ПО. Команда curl оперативно реагирует на такие отчеты, укрепляя стабильность и надежность библиотеки.
Данный инцидент демонстрирует, как открытое сообщество способно эффективно выявлять и устранять риски, даже в хорошо проверенных проектах. Это также напоминает о необходимости постоянного аудита кода, особенно в критически важных инструментах, используемых повсеместно.
Комментарии (144)
- Успешное применение набора AI-инструментов для поиска уязвимостей в проекте curl, что привело к множеству реальных исправлений
- Подчёркивается ценность AI не для генерации кода, а для анализа и указания на потенциально проблемные места, требующие внимания разработчика
- Обсуждение конкретных инструментов (ZeroPath, Claude Code, Cursor BugBot) и методик работы с LLM для эффективного поиска багов
- Отмечается проблема ложных срабатываний и спама от AI в прошлом, но в данном случае подход оказался эффективным
- Размышления о том, как интегрировать подобные AI-инструменты в рабочий процесс для аудита безопасности и повышения качества кода
Claude Sonnet 4.5 🔥 Горячее 💬 Длинная дискуссия
Anthropic выпустила Claude Sonnet 4.5 — новую модель, которую называют лучшей в мире для кодинга, создания сложных агентов и работы с компьютерами. Она демонстрирует существенный прогресс в рассуждениях, математике и реальных задачах, сохраняя фокус более 30 часов на многоэтапных проектах. На бенчмарке SWE-bench Verified, оценивающем практические навыки программирования, модель показывает лидирующие результаты, а на OSWorld, тестирующем взаимодействие с компьютером, её показатель вырос до 61,4% против 42,2% у предыдущей версии всего за четыре месяца.
Модель уже интегрирована в обновлённые продукты Anthropic: Claude Code с чекпоинтами и нативной поддержкой VS Code, расширение для Chrome, позволяющее работать прямо в браузере, а также инструменты для создания файлов и управления контекстом. Для разработчиков выпущен Claude Agent SDK — инфраструктура, на которой строятся frontier-продукты компании. Sonnet 4.5 также получила высокие оценки экспертов в финансах, юриспруденции, медицине и STEM за улучшенные предметные знания и логику. Модель доступна через API по той же цене, что и Sonnet 4 — $3/$15 за миллион токенов.
Комментарии (745)
- Смешанные оценки производительности Claude Sonnet 4.5: некоторые пользователи отмечают улучшения в кодировании и решении сложных задач, другие не видят значимой разницы по сравнению с предыдущими версиями или конкурентами.
- Критика недостатков моделей: склонность к галлюцинациям, уход в "кроличьи норы", избыточное многословие и неспособность справиться с простыми задачами, несмотря на заявленные улучшения.
- Озабоченность методологией тестирования: призывы к более прозрачным бенчмаркам, включающим временные метки, и скептицизм относительно реальной производительности вне синтетических тестов.
- Проблемы с доступностью и интерфейсом: ошибки в работе подписки, отсутствие поддержки скринридеров и функций (например, загрузки ZIP-файлов), которые есть у конкурентов.
- Влияние на разработчиков: чувство беспокойства из-за непредсказуемости и "черного ящика" ИИ, а также опасения по поводу будущего профессии в связи с автоматизацией.
Claude’s memory architecture is the opposite of ChatGPT’s 🔥 Горячее 💬 Длинная дискуссия
Как устроена память Claude
Claude начинает каждый диалог с чистого листа. Память активируется только по явному запросу: «что мы говорили о…», «вспомни наш разговор…». Система ищет не сжатые профили, а реальные прошлые чаты.
Два инструмента:
conversation_search— поиск по ключевым словам (до 10 результатов).recent_chats— хронологический доступ (до 20 чатов, можно по датам).
Пример: «Расскажи о Чандни-Чоук» → Claude находит 9 чатов, объединяет их в краткий рассказ.
Многотемный запрос («Микеланджело, Chainflip, Solana») → три последовательных поиска, 22 чата, итоговая сводка со ссылками.
Философия противоположна ChatGPT
ChatGPT: постоянное автосохранение, обобщённые заметки, «помнит всё».
Claude: ничего не хранит без спроса, полный текст диалога, «помнит по требованию».
Почему:
- ChatGPT ориентирован на бытовую автоматизацию (подарки, дедлайны).
- Claude — на исследовательские и редакторские сессии, где важна точность контекста и отсутствие «загрязнения» профиля.
Итог
Две крайности одного спектра: proactive-суммаризация vs reactive-архив. Выбор между ними = выбор между удобством и контролем.
Комментарии (212)
- ChatGPT строит «профиль пользователя» (суммаризация + эмбеддинги) и, по мнению многих, готовится к показу персонализированной рекламы; Claude пока просто ищет по истории чатов без генерации сводок.
- Половина участников отключили память: боятся «заражения» старыми галлюцинациями, слитием несвязанных тем и потери контроля над контекстом.
- Поддержка памяти в ChatGPT делится на явную (видимую в UI и вшитую в системный промпт) и скрытую (runtime-выборка из эмбеддингов всей истории).
- У Claude memory=vector-search: без построения профиля, но зато часто промахивается, если запрос не дословно совпадает с прошлым чатом.
- Технические пользователи просят внешние хранилища (MCP/API), чтобы сами решать, что и когда подтягивать; провайдеры, похоже, RL-обучают модели «прилипать» к родным механизмам памяти.
How to use Claude Code subagents to parallelize development 🔥 Горячее
Параллельная разработка с Claude Code: коротко
Запустил 3 агентов (product-manager, ux-designer, senior-engineer) одной командой — за минуту получил полный тикет в Linear.
Далее те же агенты кодят, ревьюят, тестируют в отдельных терминалах, пока я занят другим.
Ошибка стоит копейки — просто перезапускаю.
Ключевые принципы
- Параллельность: backend, frontend, тесты, доки пишутся одновременно.
- Специализация: каждый агент видит только нужный контекст (Stripe-интеграция, UI-форма, тесты).
- Минимальные требования: чёткая цель + границы (
/docs,/tests,/ui).
Как повторить
- Положи
.md-инструкции для ролей вagents/. - Один bash-скрипт:
claude -p agents/pm.md & claude -p agents/dev.md & claude -p agents/qa.md. - Результаты сливаются автоматом; если rate-limit — добавь
sleep 1.
Готово: спеку, код и тесты получаешь быстрее, чем пишешь Jira-таск.
Комментарии (117)
- Подавляющее большинство участников считают «ролевых» суб-агентов (product-manager, frontend, backend и т.д.) маркетинговым трюком: они не получают полного системного промпта и CLAUDE.md, быстро теряют контекст, пишут «моки» или ломают уже рабочий код.
- Практический итог: вместо ускорения появляется «казино» — много запусков, загрязнённый контекст, регрессии и перерасход токенов; проекты приходится переписывать вручную.
- Кто всё-таки использует суб-агентов, делает их не «по ролям», а «по задачам»: короткий запрос → агент жрёт много токенов → возвращает компактный отчёт (покрытие тестами, соответствие гайдам, рефакторинг-чек-лист), чтобы основной чат не засорять.
- Альтернатива — уйти от чёрного ящика: Tmux + два独立的 CLI-агента в соседних панелях, ручной синх через файлы или GitHub-issues; так проще остановить и подправить.
- Общий вывод: для реального кода достаточно обычного Claude Code с хорошим промптом, правилами в /commands и лаконичным CLAUDE.md; «мульти-агент» пока не приносит выгод, зато точно приносит лишние траты и головную боль.
Комментарии (66)
- Автор предлагает запускать только «релевантные» e2e-тесты, выбранные Claude Code, и заявляет о 84 % экономии времени.
- Критики считают это не оптимизацией, а сокрытием покрытия: вероятность пропустить сломанный тест становится ненулевой.
- Детерминированные решения (статический анализ графа зависимостей, Test Impact Analysis, merge-queue) существуют давно и надёжнее.
- Некоторые допускают вероятностный подход, но только если полный набор тестов всё равно прогоняется перед деплоем или в cron.
- Без публикиции baseline-экспериментов (намеренные баги, сравнение «запущено vs надо») эффективность остаётся недоказанной.
A staff engineer's journey with Claude Code 🔥 Горячее 💬 Длинная дискуссия
Краткий перевод и сжатие
Инженер Sanity Винсент Куигли за 6 недель перешёл от ручного кода к 80 % генерации ИИ.
Ключевые идеи:
- 4 этапа: «пишу сам» → «ИИ как Stack Overflow» → «ИИ пишет, я ревью» → «я ставлю задачи, ИИ решает».
- 3 попытки:
- 95 % мусора, но быстрое черновое решение.
- 50 % мусора, структура ясна.
- Рабочий код после уточнений.
- Контекст:
claude.mdв корне проекта хранит архитектуру, стандарты, примеры. - Команда агентов: один пишет код, другой тесты, третий документацию; ежедневно «забывают» контекст.
- Ревью: ИИ → я → команда; человек смотрит только критические места.
- Фоновые агенты: ночью чинят мелкие баги, утром присылают PR.
- Цена: 400 $/мес на токены, но экономит 30 % времени инженера (≈ 6 000 $).
- Риски: регрессии, безопасность, зависимость от ИИ.
- Эмоции: ушла «владение кодом», пришло «владение проблемой».
- Советы тимлиду: начинать с экспериментов, выделять «зоны ИИ», усиливать ревью.
- Советы разработчику: заведи
claude.md, ставь ИИ задачи помельче, проверяй критикуй, не верь на слово.
Комментарии (343)
- Участники сходятся: LLM хороши для отладки и брейншторма, но не способны самостоятельно писать сложный продакшен-код без доработки.
- Все обсуждают Claude Code: кто-то активно использует и хвалит, кто-то жалуется на переусложнённый код и высокие расходы (до $1500/мес).
- Повторяется один и тот же набор советов: дробить задачи, писать тесты, держать короткие циклы обратной связи, использовать линтеры и логирование.
- Некоторые инженеры предпочитают сначала строить архитектуру сами, а LLM оставляют для рутины; другие наоборот.
- Общий вывод: AI-ассистенты становятся стандартным инструментом, но пока не заменяют разработчиков и требуют постоянного контроля.
Комментарии (38)
- Методика Cloudflare (по Referer) фиксирует только переходы по ссылкам, поэтому сильно завышает долю Google и не видит внутри-LLM-запросы.
- Пользователи массово переключаются на ChatGPT, Gemini и Claude для сложных запросов, но это не отражается в статистике.
- В списке отсутствуют Китай, Япония и большинство стран Азии, где Google не доминирует.
- Даже в США доля Bing выше, чем в среднем, а в России и Чехии лидируют Яндекс и Seznam.
- Нишевые поисковики вроде Kagi и DuckDuckGo практически незаметны в данных из-за малой аудитории и особенностей приватности.
Комментарии (22)
- Пользователи обвиняют Anthropic в «тёмном паттерне»: новое согласие на тренировку моделей предлагается с предустановленным чек-боксом «on».
- Критика сосредоточена на смене курса («раньше не тренировались на данных») и невозможности выбрать короткое хранение: 5 лет или отказ от сервиса.
- Некоторые уже отменили подписку из-за отсутствия поддержки и опасений за проприетарный код в Claude Code.
- Общий совет: не доверять дефолтам, регулярно проверять настройки и рассматривать любой ИИ-сервис как «арендованную машину».
If you have a Claude account, they're going to train on your data moving forward 🔥 Горячее 💬 Длинная дискуссия
—
Комментарии (153)
- Пользователи в основном не удивлены: большинство и так считало, что их данные уже используются.
- Ключевое изменение — теперь использование данных происходит по умолчанию (opt-out), а не по согласию (opt-in).
- В настройках появился выключатель; при входе показывают поп-ап с предложением отказаться.
- Некоторые рады улучшению моделей, другие боятся утечки интеллектуальной собственности и называют это «dark pattern».
- Платным и корпоративным пользователям новые правила не касаются.
Updates to Consumer Terms and Privacy Policy 🔥 Горячее 💬 Длинная дискуссия
Краткое содержание обновлений
- Новая опция: пользователи Free, Pro, Max и Claude Code могут разрешить использовать их данные для обучения моделей и повышения безопасности.
- Как включить: новые — при регистрации, старые — всплывающее окно до 28 сентября 2025. После этой даты выбор обязателен для продолжения работы.
- Срок хранения: при согласии — 5 лет (только новые/возобновлённые чаты); без согласия — 30 дней. Удалённые диалоги не используются.
- Не касается: Claude for Work, API, Bedrock, Vertex AI, Claude Gov, Claude for Education.
- Контроль: настройку можно изменить в любой момент → Privacy Settings.
- Конфиденциальность: данные не продаются, чувствительная информация фильтруется и обезличивается.
Комментарии (484)
- Anthropic начала использовать чаты пользователей для дообучения моделей по умолчанию; отключить можно до 28 сентября через настройки.
- Многие считают это предательством доверия, отмечают тёмный паттерн в интерфейсе и отменяют подписки.
- Основная тревога: неопубликованные идеи, приватный код и личные данные могут попасть в обучающую выборку и «утечь» к другим.
- Часть пользователей не удивлена: все крупные игроки уже используют любые доступные данные, а прорывов в архитектуре нет.
- Есть и противоположное мнение: «если честно предупредили — нормально», и предложения ввести «инкогнито-режим» или локальную обработку.
What makes Claude Code so damn good 🔥 Горячее 💬 Длинная дискуссия
TL;DR
Claude Code (CC) радует, потому что максимально прост: один цикл, один контекст, минимум абстракций. Повторить магию можно, если:
- Один цикл – без мульти-агентов, максимум один «дочерний» процесс.
- Маленькая модель – для всего, кроме основной задачи.
- claude.md – живой файл, где агент и пользователь договариваются о стиле и контексте.
- Теги и примеры – XML, Markdown, куча примеров в промптах.
- Инструменты
- Поиск через сам LLM, а не RAG.
- Высокоуровневые «умные» инструменты (edit, read, todo) вместо низкоуровневых команд.
- Агент сам ведёт todo-список и отмечает выполненное.
- Управление стилем – явные просьбы «ЭТО ВАЖНО» и алгоритмы с эвристиками прямо в промпте.
1. Цикл
- Одна история сообщений – легко дебажить.
- Подпроцессы – CC может вызвать себя же, но глубина = 1.
- Маленькая модель – подсчёт токенов, сводка diff, украшения UI – всё ей.
2. Промпты
- claude.md лежит в корне репо; агент читает и пишет туда же, чтобы «запоминать» договорённости.
- XML-теги (
<thinking>,<result>) + Markdown + примеры кода – структурируют вывод и уменьшают бред.
3. Инструменты
- LLM-поиск – просим модель выдать до 20 релевантных файлов; быстрее и точнее эмбеддингов.
- Высокий уровень
str_replace_editor– редактирует блоки кода, а не строки.todo– агент сам пишет / вычёркивает задачи; видно прогресс.
- Никаких низкоуровневых
sed,grepи прочего UNIX-морока.
4. Управление
- Тон – «вежливый, лаконичный, не болтает лишнего».
- Капс и «ВАЖНО» – прямо в промпте, работает.
- Алгоритм – пишем в промпте: «если X → сделай Y, иначе спроси», + примеры.
Заключение
CC выигрывает за счёт самоограничений: один файл кода, один цикл, простые инструменты. Не усложняйте – дайте модели хороший каркас и позвольте «готовить».
Комментарии (275)
- Критика: пост назван «Что делает Claude Code таким хорошим», но не сравнивает его с другими инструментами, а просто пересказывает документацию.
- Пользователи делятся опытом: кто-то на CC уже построил MVP с платящими клиентами, кто-то сталкивается с регрессиями и «ленью» агента.
- Безопасность: многие боятся давать CLI-инструменту полный доступ к системе, ключам и репозиториям.
- Альтернативы: советуют OpenHands CLI, aider и другие open-source решения; обсуждают, как подключить собственные LLM.
- Тезис «Claude хорош, потому что модель умеет разбивать задачи на шаги и работает в unix-окружении» повторяется как ключевой.
AI tooling must be disclosed for contributions 🔥 Горячее 💬 Длинная дискуссия
Требование: раскрывать использование ИИ-инструментов при любом вкладе в проект.
- Что добавляется: в
CONTRIBUTING.mdновый раздел «AI-Generated Content Disclosure». - Суть: авторы pull-request’ов и issue обязаны явно указывать, если текст, код, коммиты или дизайн были созданы или существенно изменены при помощи ИИ (ChatGPT, Copilot, Claude и т.д.).
- Формат: достаточно короткой пометки в описании PR/issue или в коммит-сообщении, например:
AI-assist: code comments and variable naming via GitHub Copilot. - Цель: сохранить прозрачность, облегчить ревью, защитить проект от лицензионных и качественных рисков.
- Без наказаний: нарушение не влечёт блокировку, но ревьюеры могут запросить уточнение.
Комментарии (407)
- Проблема: LLM не может подписать DCO, а человек не может гарантировать происхождение кода, если он был сгенерирован ИИ.
- Правовые риски: код может быть заимствован из неизвестных источников, что создаёт угрозу нарушения авторских прав.
- Сообщество: многие мейнтейнеры требуют явного раскрытия использования ИИ, чтобы сохранить качество ревью и обучение новичков.
- Практика: проекты вроде Ghostty и Caddy уже маркируют AI-PR метками или текстовыми пометками.
- Противники считают, что важен результат, а не процесс, и предлагают полагаться на ревью кода, а не на дисклеймеры.
Claudia – Desktop companion for Claude code 🔥 Горячее 💬 Длинная дискуссия
Claudia – изящный десктоп-клиент для Claude Code.
Лёгкий, быстрый, с минималистичным дизайном.
- Системные требования: macOS 12+, Windows 10+, Linux (AppImage).
- Функции: горячие клавиши, тёмная/светлая темы, авто-обновления, нативные уведомления.
- Безопасность: токен хранится в системном хранилище, шифрование AES-256.
- Установка: скачать dmg/exe/AppImage → установить → авторизоваться через Claude.ai.
- Горячие клавиши:
•Ctrl+Shift+C– открыть/свернуть окно
•Ctrl+Enter– отправить запрос
•Ctrl+L– очистить чат
Проект с открытым кодом: github.com/claudia-app.
Комментарии (214)
- Пользователи считают, что название «Claudia» и визуальный стиль слишком близко к бренду Claude/Anthropic и прогнозируют судебные иски.
- Критика GUI-обёртки: многие ценят Claude Code именно как минималистичный CLI-инструмент и не видят необходимости в «тяжёлом» десктоп-приложении.
- Повторяющиеся жалобы: сайт тормозит, видео на главной слишком быстрое, установка бинарников ломается на Ubuntu 22.04, а вставка картинок в чат зависает.
- Пользователи просят фичи, которых нет: sandbox-агентов, нативной интеграции в VS Code, управления несколькими worktrees, нормального поиска/замены кода.
- Общий вывод: Claudia выглядит как «очередной Twitter-клиент для LLM», и большинство разработчиков возвращается к чистому Claude Code в терминале.
IQ Tests Results for AI 💬 Длинная дискуссия
TrackingAI — сайт-трекер политических и когнитивных смещений ИИ.
Добавлен Claude 3.5 Sonnet.
Что есть
- Тесты: политический компас, IQ (Mensa Norway, вербализован).
- База: все ответы ИИ, поиск, фильтры (день/неделя/месяц).
- Модели: ChatGPT, Claude, Bard, Grok и др. — список обновляется ежедневно.
Зачем
- Показывает идеологию ИИ, чтобы выбрать менее предвзятого помощника.
- Помогает разработчикам корректировать модели, если они «уходят в крайности».
Откуда идея
Вдохновлено работой Дэвида Розадо, но в отличие от статических снимков — live-трекинг.
FAQ (кратко)
- Почему ИИ левые?
Данные (Википедия) и обратная связь левых рейтеров. - Можно ли сделать ИИ центристом?
Да, но нужно менять данные или состав рейтеров. - Отказ от ответа?
Повторяем 10 раз; если отказ — фиксируем. - Контакт: maxim.lott@gmail.com
Автор
Максим Лотт, продюсер Stossel TV, создатель ElectionBettingOdds.com и TaxPlanCalculator.com.
Комментарии (281)
- IQ-тесты для людей измеряют «g-фактор» при строгих ограничениях по времени; LLM не работают в этих условиях.
- Модели часто «зубрят» ответы из обучающих данных, поэтому высокий балл ≠ человеческий интеллект.
- Визуальные модели показывают худшие результаты, чем текстовые, из-за различий в формате заданий.
- Нормированные IQ-оценки для машин — категориальная ошибка: тесты не учитывают их архитектуру и возможности.
- Бенчмарк быстро теряет ценность из-за переобучения и отсутствия контроля за «подглядыванием» в данных.
Evaluating LLMs playing text adventures
Оценка LLM в текстовых квестах
Сначала мы просто мерили, сколько ходов нужно, чтобы дойти до далёкой цели. Теперь придумали лучше: ставим лимит в 40 ходов и считаем выполненные достижения. Их описываем парой «ключ → фрагмент текста игры». Например, для 9:05:
EXIT_BED → You get out of bedOPEN_DRESSER → revealing some clean
…и так далее. Модель о достижениях не знает; мы просто подсчитываем совпадения. Очки сравниваем между собой, а не считаем абсолютной оценкой.
Результаты (4 игры, 40 ходов)
| Модель | 9:05 | Lockout | Dreamhold | Lost Pig |
|---|---|---|---|---|
| Grok 4 | 86 % | 15 % | 46 % | 33 % |
| Claude 4 Sonnet | 80 % | 30 % | 53 % | 46 % |
| Gemini 2.5 Flash | 80 % | 30 % | 33 % | 46 % |
| Gemini 2.5 Pro | 80 % | 30 % | 40 % | 40 % |
| DeepSeek R1 | 80 % | 23 % | 33 % | 33 % |
| Claude 4 Opus | 73 % | 30 % | 60 % | 46 % |
| gpt-5 Chat | 73 % | 15 % | 53 % | 33 % |
| DeepSeek V3 | 66 % | 23 % | 20 % | 33 % |
| gpt-4o | 53 % | 23 % | 40 % | 40 % |
| Qwen3 Coder | 53 % | 23 % | 40 % | 33 % |
| Kimi K2 | 53 % | 30 % | 46 % | 40 % |
| glm 4.5 | 53 % | 23 % | 33 % | 53 % |
| Claude 3.5 Haiku | 38 % | 15 % | 26 % | 26 % |
| Llama 3 Maverick | 33 % | 30 % | 40 % | 33 % |
| gpt-o3-mini | 20 % | 15 % | 26 % | 26 % |
| Mistral Small 3 | 20 % | 15 % | 0 % | 20 % |
| gpt-4o-mini | 13 % | 23 % | 20 % | 40 % |
Повторные прогоны не делали — дорого.
Комментарии (63)
- Исследование показало, что современные LLM-провайдеры плохо справляются даже с классическими текстовыми квестами, несмотря на доступные онлайн-гайды.
- Участники подчеркивают: ChatGPT-5 — это не одна модель, а роутер, случайно выбирающий модель, что снижает надёжность результатов.
- Критика методики: неясно, просили ли LLM именно проходить игру, а не просто исследовать, и нет сравнения с людьми.
- Большинство считает, что LLM не обладают «моделью мира» и не понимают строгих правил, поэтому не могут системно решать головоломки.
- Некоторые предлагают улучшить подход: давать модели прямой доступ к интерпретатору игры или использовать более точные промпты.
Optimizing my sleep around Claude usage limits
Прошлый месяц я подстроил сон под лимиты Claude Pro: счётчик обнуляется каждые 5 ч. Раньше в самый продуктивный момент всплывало «лимит до 7:00» — и flow пропадал.
Параллельно учусь ходить под парусом в одиночку: там спят по 20–30 мин, чтобы не пропустить суда и ветер. Я решил применить тот же принцип к Claude.
Теперь трачу токены 1–3 ч, затем 2-часовой «морской» сон. REM успевает накопиться, скорость разработки выросла в 10×, фичи льются.
Когда Anthropic поднимет цены или урежет лимиты, буду готов: поставлю будильник, который разбудит, как только счётчик сбросится.
Комментарии (116)
- Автор экспериментирует с полифазным сном, чтобы не сталкиваться с лимитами Claude, вызвав шквал реакций.
- Комментаторы спорят: кто-то восхищается «продуктивностью», кто-то уверен, что это сатира.
- Многие советуют просто купить подписку Claude Max, взять API-ключ или запустить локальную модель, чтобы не разрушать здоровье.
- Повторяется предупреждение: здоровье важнее денег и кода; перегрузки рано или поздно аукнутся.
- В итоге обсуждение превратилось в смесь шуток, здравого смысла и сомнений, где реальность трудно отличить от сатиры.
How I code with AI on a budget/free 🔥 Горячее 💬 Длинная дискуссия
Бесплатный AI-стек
Браузер → 15+ вкладок:
- 2-3 × z.ai GLM 4.5 (≈ Claude 4)
- 2 × Kimi K2 (багфиксер)
- Qwen3 Coder, DeepSeek v3/r1
- Google AI Studio + Gemini 2.5 Pro (Flash бесплатно)
- OpenAI Playground (разрешить обучение → бесплатные токены)
- Poe, OpenRouter, ChatGPT, Perplexity, Grok, Phind, lmarena.ai
Claude.ai — редко, т.к. лимиты.
⚠️ Grok: бесплатен, но связан с пропагандой; использовать только для кода.
Умный дешёвый цикл
-
Планирование в веб-чатах
Агенты (Cline, Copilot) «тупят» от лишнего контекста.
→ Задаю вопрос в одном из бесплатных чатов, получаю решение. -
Генерация контекста
AI Code Prep рекурсивно собирает файлы проекта и форматирует:fileName.js: <code>...</code> nextFile.py: <code>...</code> -
Исполнение
Ответ вставляю в Cline/Roo Code; GPT-4.1 спокойно применяет патчи без трат на Claude.
Комментарии (219)
- Автор статьи извинился за устаревший список моделей: теперь фавориты — GLM-4.5, Kimi K2, Qwen3-Coder 480b.
- Участники подтверждают: агенты работают только на самых больших моделях, для простых задач быстрее мелкие.
- Популярны бесплатные веб-чаты: Google AI Studio (Gemini 2.5 Pro), Mistral, DeepSeek, Qwen Chat; лимиты высокие или неограниченные.
- Локальные решения: Continue.dev + Ollama/LMStudio, Cursor CLI, repomix/codemerger для упаковки кода в один файл.
- Некоторые считают всё это слишком сложным и предпочитают писать код вручную или использовать единый инструмент вроде Amazon Q Dev.
GPT-5: "How many times does the letter b appear in blueberry?" 🔥 Горячее 💬 Длинная дискуссия
—
Комментарии (234)
- GPT-5 без «режима рассуждений» ошибочно считает количество букв «b» в слове blueberry (выдаёт 2 вместо 3).
- Пользователи связывают ошибку с особенностями токенизации и тем, что модель «не видит» отдельные символы.
- При явном включении «режима рассуждений» или в других моделях (Claude, Qwen3, GPT-4o) ответ получается верным.
- Обсуждение подчёркивает: быстрый «дешёвый» вывод может быть неточным, а автоматический роутер пока плохо распознаёт задачи, требующие точного перебора символов.
I gave the AI arms and legs then it rejected me 🔥 Горячее 💬 Длинная дискуссия
- Сгенерированное ИИ изображение, где ИИ руками «отвергает» меня. Очень мета.
В октябре 2024 Anthropic представила «Claude Computer Use», позволяющую ИИ управлять компьютером, копировать данные из браузера в таблицы и т.п. Я поддерживаю библиотеку для управления компьютером и этой весной решил разобраться, как они это делают. К моему удивлению, Anthropic использует мою библиотеку enigo.
Проверить использование enigo в Claude Desktop для macOS можно так:
- 7z x Claude.dmg
- perl -nle 'print $& while /.{0,67}enigo.{0,30}/g' Claude/Claude.app/Contents/Resources/app.asar.unpacked/node_modules/claude-native/claude-native-binding.node Вывод содержит путь к enigo-0.2.1/src/macos/macos_impl.rs
На Windows:
- 7z x Claude-Setup-x64.exe
- 7z x AnthropicClaude-0.11.6-full.nupkg
- perl -nle 'print $& while /.{0,75}enigo.{0,26}/g' Claude-Setup-x64/AnthropicClaude-0.11.6-full/lib/net45/resources/app.asar.unpacked/node_modules/claude-native/claude-native-binding.node Вывод указывает на enigo-0.2.1/src/win/win_impl.rs
Я горжусь, что enigo дорос до продакшена у компании с огромным бюджетом. Эмуляция ввода сложна из‑за слабой документации и платформенных особенностей. На мой взгляд, enigo — отличный выбор: работает на Windows, macOS, *BSD и Linux (Wayland, X11, libei) без root; написан на Rust (безопасность памяти, высокая скорость); самый популярный на crates.io (~300k загрузок, 1200+ звёзд). И всё же тревожно, что мой хобби‑проект установлен на тысячах устройств.
Сколько я на этом заработал? Нисколько: enigo под MIT‑лицензией — можно бесплатно использовать. Взамен — звёзды на GitHub и счётчик загрузок.
Интересно, что Claude Desktop — Electron‑приложение, но есть только для macOS и Windows. Сообщество запустило его на Linux, заменив вызовы enigo заглушками, хотя enigo кроссплатформенна — любопытный выбор.
Через знакомых я узнал об открытой роли в команде, делавшей секретную, ещё не выпущенную функцию Claude Desktop с enigo. Подал заявку, ждал. В итоге пришло письмо: команда не успевает рассматривать дополнительные заявки.
Я бы с радостью поработал в Anthropic: сделать аналог Computer Use, довести Claude Desktop до Linux, вложить свой опыт в эмуляцию ввода и полноценно отполировать enigo, чтобы Anthropic концентрировалась на моделях, а не на капризах ввода.
В целом я счастлив, что enigo в Claude Desktop, и всем об этом рассказываю. Забавно думать, что я метафорически дал Claude руки и ноги — и получить отказ. Письмо написал человек или сам Claude? По крайней мере, теперь я, наверное, в безопасности…
Комментарии (379)
- Обсуждение вокруг автора OSS-библиотеки enigo, которую, по словам поста, использует Claude Desktop; при попытке податься в Anthropic он получил авто‑отказ без рассмотрения, что вызвало резонанс.
- Многие считают, что заявку, вероятно, даже не читали из‑за перегруженных или автоматизированных HR/ATS‑процессов; советуют искать тёплый интро к менеджеру, а не подаваться «в общий ящик».
- Поднята тема лицензий: permissive (MIT) позволяет корпорациям брать код без вклада; участники предлагают рассмотреть MPL/EUPL, Fair Source или даже целевые ограничения, хотя применимость и исполнение спорны.
- Несколько комментаторов призывают Anthropic хотя бы поблагодарить автора, дать консультационный контракт или символическую компенсацию; другие напоминают, что компания волна отбирать кого хочет.
- Обсуждаются возможные факторы отказа: геолокация (США vs Европа), визы, несоответствие профиля «AI‑инженеру», парадоксы найма и предпочтение «низкопрофильных» кандидатов.
- Приводятся похожие кейсы из индустрии: от игнора мейнтейнеров до неудачных интервью у компаний, зависящих от их софта.
- Общий вывод: современный тех‑набор страдает от автоматизации и перегрузки; для кандидатов критичны нетворкинг, прямой контакт с нанимающим менеджером и стратегия видимости, а для OSS — осознанный выбор лицензии.
Anthropic revokes OpenAI's access to Claude 🔥 Горячее
—
Комментарии (123)
"OpenAI was plugging Claude into its own internal tools using special developer access (APIs)"Unless it's actually some internal Claude API which OpenAI were using with an OpenAI benchmarking tool, this sounds like a hyped-up way for Wired to phrase it.Almost like: `Woah man, Ope