Qodo CLI agent scores 71.2% on SWE-bench Verified
Qodo Command набрал 71,2 % на SWE-bench Verified — стандартном бенчмарке для оценки способности агентов решать реальные задачи из GitHub.
- SWE-bench Verified включает 500 задач из 12 популярных репозиториев (Django, scikit-learn, sympy и др.).
- Каждая задача: описание бага/фичи + тест, который должен проходить после исправления.
- Оценивается только успешность прохождения тестов; стиль и качество кода не учитываются.
Результаты
- 71,2 % — новый рекорд среди публичных решений.
- +18,2 п.п. от предыдущего лидера (CodeStory Aide).
- +31,2 п.п. от первого релиза SWE-bench (2023).
Ключевые инсайты
- Контекст важнее модели: использование 128k-токенного окна и RAG-поиска по 500+ файлам дало +12 %.
- Итерации решают: 3–5 попыток сборки/тестов повышают успех на 8 %.
- Маленькие PR легче: задачи <30 строк кода решаются в 84 % случаев, >200 — лишь 38 %.
Что дальше
- Публикация детального тех-отчёта и открытого датасета.
- Расширение до 1 000 задач и добавление новых языков (Go, Rust).
Комментарии (43)
- Qodo показал 71,2 % на SWE-bench-verified — 5-е место, всего на 1 % уступая официальному Claude Sonnet 4.
- Участники сомневаются в честности результатов и просят независимую платформу с peer-review.
- Поднимаются вопросы о стоимости, эффективности, размере модели и специфике подготовки именно под тест.
- Обсуждают, что сам бенчмарк «закрыт» для Python-ошибок и не отражает реальную разработку.
- Некоторые уже отказались от Qodo в пользу BugBot и сомневаются в жизнеспособности «обёрток» над LLM.
I want everything local – Building my offline AI workspace 🔥 Горячее 💬 Длинная дискуссия
- Локальный стек: Ollama (LLM), assistant-ui (веб-интерфейс), Apple
container
(изолированные ВМ), Playwright (браузер), coderunner (MCP-сервер с Jupyter). - Цель: чат, запуск кода и доступ в интернет без облаков и утечек данных.
- Проблемы:
– Модели Ollama пока не поддерживают вызовы инструментов.
– Создание нативного Mac-приложения провалилось:a0.dev
заточен под iOS, Electron + NextJS оказались геморроем.
– Applecontainer
часто падает сTrap
; помогаетpkill
+ перезапуск. - Решения:
– Веб-версияassistant-ui
черезai-sdk
с выпадающим списком моделей (локальных и облачных).
– Jupyter в изолированной ВМ, доступен по MCP:http://coderunner.local:8222/mcp
.
– Конфиг для Claude Desktop:"coderunner": { "httpUrl": "http://coderunner.local:8222/mcp" }
.
Комментарии (274)
- Участники восхищаются локальной, «песочной» архитектурой для приватного AI-воркспейса и инструментом
coderunner
, но отмечают, что узкие места — это не только софт, но и «железо»: 80B-модели требуют ≥80 ГБ быстрой RAM, что доступно разве что на RTX 4090 или Strix Halo. - Критичным становится слой знаний: RAG над личными файлами требует вектор-БД, а значит — много диска и оперативки; Docker-обёртка или
docker compose up -d
просится как минимальный способ разворачивания. - Пока локальные модели — скорее «увлекательное хобби» (медленно, глючно, нужен тюнинг), чем рабочий инструмент; облачные API (Cerebras, Groq) дают 1000 ток/с, но подрывают приватность.
- Сообщество просит готовый «всё-в-одном» стек: веб-поиск, голосовой режим, image-gen, лёгкий switch «локально ↔ облако» без потери данных.
- Несколько участников делятся своими решениями: Kasm + Ollama, Open WebUI, MLX-электрон-приложение, Synology-NAS-контейнеры, браузерный LLM без установки.