Qodo CLI agent scores 71.2% on SWE-bench Verified

Qodo Command набрал 71,2 % на SWE-bench Verified — стандартном бенчмарке для оценки способности агентов решать реальные задачи из GitHub.

SWE-bench Verified включает 500 задач из 12 популярных репозиториев (Django, scikit-learn, sympy и др.).
Каждая задача: описание бага/фичи + тест, который должен проходить после исправления.
Оценивается только успешность прохождения тестов; стиль и качество кода не учитываются.

Результаты

Ключевые инсайты

Контекст важнее модели: использование 128k-токенного окна и RAG-поиска по 500+ файлам дало +12 %.
Итерации решают: 3–5 попыток сборки/тестов повышают успех на 8 %.
Маленькие PR легче: задачи <30 строк кода решаются в 84 % случаев, >200 — лишь 38 %.

Что дальше

Qodo показал 71,2 % на SWE-bench-verified — 5-е место, всего на 1 % уступая официальному Claude Sonnet 4.
Участники сомневаются в честности результатов и просят независимую платформу с peer-review.
Поднимаются вопросы о стоимости, эффективности, размере модели и специфике подготовки именно под тест.
Обсуждают, что сам бенчмарк «закрыт» для Python-ошибок и не отражает реальную разработку.
Некоторые уже отказались от Qodo в пользу BugBot и сомневаются в жизнеспособности «обёрток» над LLM.