Тег: #rag — Hacker News Digest

Qodo CLI agent scores 71.2% on SWE-bench Verified (qodo.ai)

Qodo Command набрал 71,2 % на SWE-bench Verified — стандартном бенчмарке для оценки способности агентов решать реальные задачи из GitHub.

SWE-bench Verified включает 500 задач из 12 популярных репозиториев (Django, scikit-learn, sympy и др.).
Каждая задача: описание бага/фичи + тест, который должен проходить после исправления.
Оценивается только успешность прохождения тестов; стиль и качество кода не учитываются.

Результаты

71,2 % — новый рекорд среди публичных решений.
+18,2 п.п. от предыдущего лидера (CodeStory Aide).
+31,2 п.п. от первого релиза SWE-bench (2023).

Ключевые инсайты

Контекст важнее модели: использование 128k-токенного окна и RAG-поиска по 500+ файлам дало +12 %.
Итерации решают: 3–5 попыток сборки/тестов повышают успех на 8 %.
Маленькие PR легче: задачи <30 строк кода решаются в 84 % случаев, >200 — лишь 38 %.

Что дальше

Публикация детального тех-отчёта и открытого датасета.
Расширение до 1 000 задач и добавление новых языков (Go, Rust).

by bobismyuncle • 12 августа 2025 г. в 11:05 • 122 points

Оригинал • HN

#python #django #scikit-learn #sympy #llm #rag #benchmarking #swe-bench #github

Комментарии (43)

Qodo показал 71,2 % на SWE-bench-verified — 5-е место, всего на 1 % уступая официальному Claude Sonnet 4.
Участники сомневаются в честности результатов и просят независимую платформу с peer-review.
Поднимаются вопросы о стоимости, эффективности, размере модели и специфике подготовки именно под тест.
Обсуждают, что сам бенчмарк «закрыт» для Python-ошибок и не отражает реальную разработку.
Некоторые уже отказались от Qodo в пользу BugBot и сомневаются в жизнеспособности «обёрток» над LLM.

I want everything local – Building my offline AI workspace (instavm.io) 🔥 Горячее 💬 Длинная дискуссия

Локальный стек: Ollama (LLM), assistant-ui (веб-интерфейс), Apple container (изолированные ВМ), Playwright (браузер), coderunner (MCP-сервер с Jupyter).
Цель: чат, запуск кода и доступ в интернет без облаков и утечек данных.
Проблемы:
– Модели Ollama пока не поддерживают вызовы инструментов.
– Создание нативного Mac-приложения провалилось: a0.dev заточен под iOS, Electron + NextJS оказались геморроем.
– Apple container часто падает с Trap; помогает pkill + перезапуск.
Решения:
– Веб-версия assistant-ui через ai-sdk с выпадающим списком моделей (локальных и облачных).
– Jupyter в изолированной ВМ, доступен по MCP: http://coderunner.local:8222/mcp.
– Конфиг для Claude Desktop: "coderunner": { "httpUrl": "http://coderunner.local:8222/mcp" }.

by mkagenius • 08 августа 2025 г. в 18:19 • 1026 points

Оригинал • HN

#ollama #assistant-ui #apple-container #playwright #coderunner #jupyter #mcp #docker #rag #vector-databases

Комментарии (274)

Участники восхищаются локальной, «песочной» архитектурой для приватного AI-воркспейса и инструментом coderunner, но отмечают, что узкие места — это не только софт, но и «железо»: 80B-модели требуют ≥80 ГБ быстрой RAM, что доступно разве что на RTX 4090 или Strix Halo.
Критичным становится слой знаний: RAG над личными файлами требует вектор-БД, а значит — много диска и оперативки; Docker-обёртка или docker compose up -d просится как минимальный способ разворачивания.
Пока локальные модели — скорее «увлекательное хобби» (медленно, глючно, нужен тюнинг), чем рабочий инструмент; облачные API (Cerebras, Groq) дают 1000 ток/с, но подрывают приватность.
Сообщество просит готовый «всё-в-одном» стек: веб-поиск, голосовой режим, image-gen, лёгкий switch «локально ↔ облако» без потери данных.
Несколько участников делятся своими решениями: Kasm + Ollama, Open WebUI, MLX-электрон-приложение, Synology-NAS-контейнеры, браузерный LLM без установки.