Production RAG: what I learned from processing 5M+ documents 🔥 Горячее
За 8 месяцев работы над RAG-системами для обработки 13+ миллионов документов автор выявил ключевые факторы успеха. Начав с типового стека Langchain + Llamaindex по туториалам, команда столкнулась с тем, что прототип на 100 документах показывал отличные результаты, а на полном наборе данных - провальные. Основные улучшения, давшие наибольший эффект: генерация множества семантических и ключевых запросов параллельно с исходным, реранкинг (оптимальное соотношение 50:15 чанков), тщательная настройка чанкинга с сохранением логических единиц, добавление метаданных в контекст LLM и маршрутизация запросов, не требующих поиска по базе.
Технологический эволюция включала переход от Azure к Pinecone, а затем Turbopuffer для векторного хранилища, от Cohere к Zerank для реранкинга, и от GPT-4.1 к GPT-5 и обратно. Автор подчеркивает, что реранкинг - "самые ценные 5 строк кода", а на чанкинг уходит большая часть времени. Весь опыт был упакован в open-source проект agentset под лицензией MIT.
Комментарии (104)
- Обсуждение охватывает широкий спектр тем: от генерации синтетических запросов и проблем с их качеством до самостоятельного хостинга, отсутствия настоящего самостоятельного хостинга и до влияния выбора модели эмбеддинга на качество и стоимость.
- Участники обмениваются практическими советами по оптимизации чанкинга, реранкинга и использованию различных моделей эмбеддинга и ранжирования.
- Обсуждаются сложности с интеграцией и стоимостью при использовании сторонних сервисов, а также вопросы безопасности и контроля при использовании облачных сервисов.
- Рассматриваются вопросы о том, какие факторы действительно важны при выборе инструментов и подходов, и какие из них являются просто маркетинговыми фишками.
Launch HN: LlamaFarm (YC W22) – Open-source framework for distributed AI
LlamaFarm — это инструмент для локального развертывания AI-моделей, агентов, баз данных, RAG и пайплайнов за считанные минуты. Он позволяет запускать сложные AI-системы без облачной инфраструктуры, что особенно ценно для разработчиков, работающих с приватными данными или в условиях ограниченного интернета.
Проект упрощает интеграцию различных компонентов, таких как векторизованные базы данных и агенты ИИ, снижая порог входа в создание production-готовых решений. Это ускоряет эксперименты и развертывание, экономя время на настройке окружения.
Комментарии (51)
- Поддержка децентрализации ИИ и локального запуска моделей для защиты приватности и снижения зависимости от крупных облачных провайдеров
- LlamaFarm позиционируется как инструмент для декларативной оркестрации локальных AI-систем (RAG, агенты, векторные БД) с акцентом на портативность и контроль над пайплайном
- Ключевые целевые аудитории — юристы, здравоохранение и госсектор, где критически важны безопасность данных и работа в изолированных средах
- Отличие от решений вроде LangChain или LlamaIndex — предоставление готового фреймворка для production, а не программируемых компонентов
- Вызовы: привлечение первых пользователей и упрощение процесса деплоя для широкого внедрения
What makes 5% of AI agents work in production?
Большинство ИИ-агентов (95%) терпят неудачу в продакшене не из-за недостатка интеллекта моделей, а из-за проблем с контекстной инженерией, управлением памятью и безопасностью. Ключевая идея: базовые модели — это почва, а контекст — семя. Успешные команды избегают тонкой настройки, вместо этого фокусируясь на продвинутом RAG с селективным отбором контекста, валидацией и гибридными архитектурами (семантический слой + метаданные).
Они применяют подход, схожий с feature engineering: версионирование, аудит и тестирование контекста, а не работа с ним как с неструктурированным текстом. Например, text-to-SQL системы редко работают из-за неоднозначности естественного языка и специфичности бизнес-терминологии. Решение — встраивание доменных онтологий и строгих схем, превращающих контекст в управляемый актив, а не в случайный набор данных.
Комментарии (85)
- Обсуждается разрыв между завышенными ожиданиями от AI (восприятие как "магии") и реальностью, где 95% развертываний AI-агентов терпят неудачу из-за проблем с инфраструктурой, а не с моделями.
- Подчеркивается важность контекстного инжиниринга, проверенных бизнес-логик и шаблонов, а не прямого генеративного подхода (например, text-to-SQL).
- Многие решения на основе LLM сводятся к детерминированным системам (деревьям решений), что ставит под вопрос их необходимость вместо более простых и надежных альтернатив.
- Отмечается, что успех зависит от инженерии ("строительных лесов") — валидации, безопасности, слоев памяти — а не от интеллекта модели.
- Высказывается критика в адрес маркетинга AI как "волшебства" и генерации контента с помощью AI, который часто оказывается многословным и бессодержательным.
The RAG Obituary: Killed by agents, buried by context windows
RAG-архитектура, доминировавшая в AI последние три года, уступает место новым подходам. Ранние модели вроде GPT-3.5 ограничивались 4–8 тыс. токенов, что делало невозможной работу с объёмными документами — например, отчёт SEC 10-K содержит ~51 тыс. токенов. RAG решал это через разбиение текста на фрагменты (чанки) и поиск релевантных частей, но даже продвинутые методы чанкинга не спасали от потери контекста: финансовые таблицы, сноски и связи между разделами разрушались.
Современные модели с контекстом в миллионы токенов (например, Gemini 1.5) и агентные архитектуры делают RAG избыточным. Зачем извлекать фрагменты, если можно загрузить весь документ целиком? Это устраняет проблемы чанкинга, эмбеддингов и повторного ранжирования. Ключевой вывод: эра компромиссов между точностью и контекстом заканчивается — будущее за системами, работающими с полными данными без промежуточных шагов.
Комментарии (150)
- Участники критикуют автора за чрезмерное обобщение: утверждение о "смерти RAG" основано на узком примере поиска в коде и не учитывает масштабируемость и другие сложные use-case'ы (например, миллионы документов в распределенных системах).
- Подчеркивается, что RAG — это общий паттерн (извлечение информации + обогащение контекста), а не только векторный поиск; grep, SQL, API-вызовы или использование агента с инструментами — это тоже формы RAG.
- Отмечается, что агентный поиск (с использованием инструментов вроде grep, BM25 и др.) может быть мощнее классического RAG, но он медленнее, дороже и сложнее из-за множественных вызовов функций.
- Указывается, что большие контекстные окна LLM позволяют им читать целые файлы, что меняет workflow и снижает необходимость в сложных пайплайнах чанкинга и эмбеддингов.
- Многие видят иронию в том, что автор называет RAG "кошмаром edge-кейсов", в то время как агентный подход с инструментами вроде grep introduces свои сложности (производительность, безопасность, детерминизм).
Paper2Agent: Stanford Reimagining Research Papers as Interactive AI Agents
Исследовательские работы превращаются в интерактивных ИИ-агентов, способных отвечать на вопросы, генерировать код и визуализировать данные напрямую из текста статьи. Это достигается за счёт структурированного представления содержания — разделов, формул, алгоритмов — в формате, понятном языковым моделям. Агенты используют RAG для точного извлечения информации и следования исходному контексту, что резко снижает риски галлюцинаций.
Ключевое преимущество — повышение надёжности: ответы строго привязаны к содержимому статьи, а не к общим знаниям модели. Это особенно ценно для сложных технических тем, где точность критична. Практически, такой подход ускоряет взаимодействие с научными материалами, делая их не статичными документами, а динамичными инструментами для исследователей и разработчиков.
Комментарии (30)
- Участники обсуждают, снижает ли автоматизация понимания научных станей глубину познания или же, наоборот, делает исследования более доступными, устраняя бюрократические и технические барьеры.
- Высказываются опасения по поводу поверхностного понимания и некритического использования ИИ, включая случаи генерации ложных данных и неспособности защитить диссертации.
- Подчёркивается, что академический стиль письма часто намеренно усложнён, и инструменты для его упрощения могут быть полезны, особенно для инженеров и неэкспертов.
- Обсуждаются технические аспекты ИИ-агентов: их определение, способность автономно работать с инструментами, безопасность и практическая применимость для запуска описанных в статьях методов.
- Отмечается, что инструмент, представленный в статье, является практическим примером из области геномики, но его эффективность по сравнению с ручной работой эксперта ставится под вопрос.
The wall confronting large language models
Основная идея
Авторы утверждают, что современные LLM уже близки к «стене» роста качества: дальнейшее увеличение моделей и данных даёт лишь логарифмический прирост, а затраты растут экспоненциально.
Причины стены
- Исчерпаемость данных: высококачественный текст в интернете ограничен; синтетические данные быстро насыщают.
- Сложность задач: после решения «лёгких» 90 % остаются «трудные» 10 %, где ошибки почти не коррелируют с размером модели.
- Экономика: чтобы снизить ошибку в 2 раза, нужно в 10–100× больше ресурсов.
Эксперименты
На MMLU, GSM8K, HumanEval и BIG-Bench наблюдается выравнивание кривых качества даже при масштабировании на порядки.
Что делать
- Переход к специализированным моделям и инструментам (код-интерпретаторы, поиск).
- Агентские схемы, где LLM вызывает API и внешние системы.
- Новые архитектуры (MoE, RAG, RL) и синтетические данные нового типа (симуляции, мультимодальные сцены).
Вывод
Чистое масштабирование скоро исчерпается; прорыв потребует перехода от «больших» к «умным» системам.
Комментарии (145)
- Обсуждение крутится вокруг того, можно ли свести понимание и логическое рассуждение к вероятностным моделям вроде LLM.
- Часть участников считает, что формальное равенство с цепями Маркова или LLM ничего не даёт и упускает ключевые вещи — например, backtracking и символьное мышление.
- Другие отвечают, что трансформеры с chain-of-thought уже теоретически могут решать всё в классе P, а агенты с внешними инструментами уже делают backtracking на практике.
- Критика статьи: авторы-физики пишут запутанно, примеров нет, фокус на ядерных реакторах и численных методах выглядит неуместным.
- Сторонники «горького урока» указывают, что дальнейшее увеличение моделей и данных даст больше, чем попытки встроить строгую символику.
Show HN: Vectorless RAG
## Простой RAG с PageIndex
**Цель**
Показать, как за 5 минут построить полноценный Retrieval-Augmented Generation пайплайн на базе PageIndex.
---
### 1. Установка и импорт
```bash
pip install pageindex openai
import pageindex, openai, os
openai.api_key = os.getenv("OPENAI_API_KEY")
2. Загрузка документов
Поддерживаются PDF, DOCX, TXT, MD, PPTX, CSV, JSON.
docs = pageindex.load_documents("data/")
index = pageindex.Index(name="my_docs")
index.add_documents(docs)
3. Поиск и генерация
query = "Какие преимущества RAG?"
chunks = index.search(query, top_k=3)
context = "\n".join(c.text for c in chunks)
prompt = f"Используй контекст:\n{context}\n\nВопрос: {query}"
answer = openai.ChatCompletion.create(
model="gpt-3.5-turbo",
messages=[{"role": "user", "content": prompt}]
).choices[0].message.content
print(answer)
4. Потоковый чат
chat = index.chat_session(model="gpt-4")
print(chat.ask("Сравни RAG и fine-tuning"))
5. Сохранение и переиспользование
index.save("my_docs.pidx")
# index = pageindex.Index.load("my_docs.pidx")
Советы
- Для больших объёмов используй
batch_size=100. - Повышай
top_kпри недостаточном контексте. - Добавляй
metadata={"source": "file.pdf"}для фильтрации.
Готово! Теперь у вас работает RAG без векторных БД и сложной инфраструктуры.
Комментарии (93)
- Критики считают «vectorless RAG» переизобретением семантического чанкинга + иерархического поиска и сомневаются в масштабируемости.
- Основной минус — высокие затраты и латентность: каждый запрос требует прогона LLM по всем документам или их крупным фрагментам.
- Подход может подойти для малого корпуса или офлайн-задач (юрдоки, медкарты), но не для чатов «здесь и сейчас».
- Некоторые предлагают гибриды: ANN-вектора для быстрого отбора, затем LLM-переранжирование.
- Пропущены публичные бенчмарки; сравнение ограничено собственным датасетом MAFIN2.5.
A Guide to Gen AI / LLM Vibecoding for Expert Programmers
Краткий гайд по «vibe-coding» для экспертов
Даже 20-летний ветеран или создатель алгоритмов не «слишком крут» для vibe-coding. Автор — мейнтейнер 200+ пакетов, сооснователь стартапа и лаборатуры MIT — тоже сначала презирал LLM-генерированный код. Месяц назад изменил мнение: 32 агента Claude крутятся в tmux, к ним можно зайти с телефона и «продолжать вибро-кодить».
Почему экспертам это нужно
- LLM не заменяют, а ускоряют мышление.
- Рутинные куски (бойлерплейт, тесты, доки) отдаются за секунды.
- Мозг занят архитектурой и отладкой, а не синтаксисом.
Ключевые правила
- Точный промпт
«Напиши CUDA-ядро, которое…» лучше «сделай быстро». - Маленькие итерации
Генерируй, проверяй, коммить, повторяй. - Ревью как обычно
Эксперт всё равно решает, правильно ли. - Автоматизация
tmux + ssh + скрипты = код 24/7.
Итог
Vibe-coding — это не про «глупый код», а про умное распределение внимания.
Комментарии (82)
- Критика статьи: название «для программистов, ненавидящих свою работу», советы слишком общие, нет практики по контексту, RAG и MCP.
- Vibe-coding воспринимается как «ведение скрамов» или «управление офшором»: нравится не всем, особенно тем, кто любит сам процесс программирования.
- Сторонники считают LLM просто новым уровнем абстракции и способом быстрее строить продукты; скептики боятся атрофии навыков и невозможности ревью «тысяч строк кода».
- Практический совет: дробить задачи на мелкие шаги, давать примеры, проверять каждый модуль, играться с инструментами, чтобы выработать интуицию.
- Итог: для личных/малых проектов — работает, для больших коммерческих систем — спорно; эффективность зависит не от звания, а от умения чётко задавать контекст и перепроверять результат.
From GPT-4 to GPT-5: Measuring progress through MedHELM [pdf]
%PDF-1.7
50 0 obj
<< /Length 2836 /Filter /FlateDecode >>
stream
…сжатый бинарный поток…
endstream
endobj
65 0 obj
<< /Length 2952 /Filter /FlateDecode >>
stream
…сжатый бинарный поток…
endstream
endobj
Комментарии (87)
- GPT-5 показывает смешанные результаты: лучше справляется с фактами и рассуждениями, но хуже — со структурированными запросами, честностью и доказательной базой.
- Обычным пользователям, интересующимся здоровьем, важнее всего HeadQA, Medbullets, MedHallu и PubMedQA; при этом RAG-подходы могут быть полезнее «чистого» модельного ответа.
- Некоторые разработчики отмечают, что GPT-5 быстро решает сложные задачи, но «самоуправляется» и делает лишнее; другие считают улучшение минимальным и связывают это с экономией вычислений.
- Обсуждаются возможные причины регрессии: маршрутизатор экспертных моделей, ограничения на tool-calls и использование режима «medium» вместо «high» reasoning.
Show HN: I replaced vector databases with Git for AI memory (PoC)
DiffMem — хранилище памяти для диалоговых ИИ-агентов на базе Git.
Использует коммиты как «снимки» контекста: каждое сообщение = отдельный diff, история полностью версионируется.
Поддерживает ветвление диалогов, откат к любой точке и слияние веток без потери данных.
Работает как лёгкая библиотека Python: pip install diffmem, далее diffmem init, diffmem commit, diffmem checkout.
Внутри — обычный репозиторий Git, поэтому можно пушить на GitHub, делать PR и использовать все привычные инструменты.
Комментарии (39)
- Пользователь предложил заменить векторные БД на «агентивный» ретривал: LLM сама выбирает нужные файлы из аннотированного списка; для сотен документов это проще и точнее, чем классический RAG.
- Критика: такой подход не решает задачи семантического поиска в больших пространствах, для которых и создавались векторные БД.
- Поддержка: git-файлы удобны для малого объёма (≈100 МБ), а BM25/Lucene/FAISS-flat можно использовать как быструю альтернативу.
- Предложены улучшения: post-commit-хуки для обновления индекса, гибридные поиски, MCP-сервер, временные knowledge-graph.
- Автор признаёт, что это PoC для «памяти агентов», а не полноценная замена векторных БД; при интересе готов довести до продакшена.
Show HN: Chroma Cloud – serverless search database for AI
Chroma Cloud — серверлес-база поиска с открытым исходным кодом: быстро, дёшево, масштабируемо, надёжно.
Возможности
- Векторный, полнотекстовый и мета-поиск
- Форк коллекций
- Скоро: автоматическая синхронизация данных
Производительность
- Низкая латентность, высокий QPS
- Линейное масштабирование данных
- Хранение в объектном хранилище
DevEx
- Оплата по факту использования
- Веб-дашборд, CLI, локальная разработка
- Интеграция в CI/CD
Как начать
pip install chromadb
import chromadb
client = chromadb.CloudClient()
collection = client.get_or_create_collection("my_docs")
collection.add(
documents=["Hello, world!", "Chroma is cool"],
metadatas=[{"src": "demo"}, {"src": "demo"}],
ids=["d1", "d2"]
)
print(collection.query(query_texts=["hello"], n_results=1))
Комментарии (27)
- Пользователи спрашивают, почему «open-source» просит деньги: ответ — сам Chroma под Apache 2.0 и бесплатен при самостоятельном развёртывании, а платная версия — это управляемый Chroma Cloud.
- Chroma поддерживает комбинированный поиск: фильтрацию по метаданным (
category=X AND value>Y) + векторное сходство. - Некоторые считают, что продукт и калькулятор цен слишком похожи на Turbopuffer; команда Chroma отвечает, что архитектуру обсуждали публично два года и уважают конкурентов.
- Для нетехнических пользователей Chroma решает задачу «R» в RAG: позволяет LLM «на лету» подтягивать нужные данные без дообучения модели.
- Стартапам предлагают помощь: совместное планирование, Slack-канал и персональная поддержка.
- Отличия от pgvector/Redis: собственные индексы (SPANN, SPFresh), шардирование, масштабирование, встроенный regex и trigram-поиск без нагрузки на основную БД.
- По сравнению с Qdrant Chroma позиционируется как «0 конфигураций и 0 операционной боли».
Qodo CLI agent scores 71.2% on SWE-bench Verified
Qodo Command набрал 71,2 % на SWE-bench Verified — стандартном бенчмарке для оценки способности агентов решать реальные задачи из GitHub.
- SWE-bench Verified включает 500 задач из 12 популярных репозиториев (Django, scikit-learn, sympy и др.).
- Каждая задача: описание бага/фичи + тест, который должен проходить после исправления.
- Оценивается только успешность прохождения тестов; стиль и качество кода не учитываются.
Результаты
- 71,2 % — новый рекорд среди публичных решений.
- +18,2 п.п. от предыдущего лидера (CodeStory Aide).
- +31,2 п.п. от первого релиза SWE-bench (2023).
Ключевые инсайты
- Контекст важнее модели: использование 128k-токенного окна и RAG-поиска по 500+ файлам дало +12 %.
- Итерации решают: 3–5 попыток сборки/тестов повышают успех на 8 %.
- Маленькие PR легче: задачи <30 строк кода решаются в 84 % случаев, >200 — лишь 38 %.
Что дальше
- Публикация детального тех-отчёта и открытого датасета.
- Расширение до 1 000 задач и добавление новых языков (Go, Rust).
Комментарии (43)
- Qodo показал 71,2 % на SWE-bench-verified — 5-е место, всего на 1 % уступая официальному Claude Sonnet 4.
- Участники сомневаются в честности результатов и просят независимую платформу с peer-review.
- Поднимаются вопросы о стоимости, эффективности, размере модели и специфике подготовки именно под тест.
- Обсуждают, что сам бенчмарк «закрыт» для Python-ошибок и не отражает реальную разработку.
- Некоторые уже отказались от Qodo в пользу BugBot и сомневаются в жизнеспособности «обёрток» над LLM.
I want everything local – Building my offline AI workspace 🔥 Горячее 💬 Длинная дискуссия
- Локальный стек: Ollama (LLM), assistant-ui (веб-интерфейс), Apple
container(изолированные ВМ), Playwright (браузер), coderunner (MCP-сервер с Jupyter). - Цель: чат, запуск кода и доступ в интернет без облаков и утечек данных.
- Проблемы:
– Модели Ollama пока не поддерживают вызовы инструментов.
– Создание нативного Mac-приложения провалилось:a0.devзаточен под iOS, Electron + NextJS оказались геморроем.
– Applecontainerчасто падает сTrap; помогаетpkill+ перезапуск. - Решения:
– Веб-версияassistant-uiчерезai-sdkс выпадающим списком моделей (локальных и облачных).
– Jupyter в изолированной ВМ, доступен по MCP:http://coderunner.local:8222/mcp.
– Конфиг для Claude Desktop:"coderunner": { "httpUrl": "http://coderunner.local:8222/mcp" }.
Комментарии (274)
- Участники восхищаются локальной, «песочной» архитектурой для приватного AI-воркспейса и инструментом
coderunner, но отмечают, что узкие места — это не только софт, но и «железо»: 80B-модели требуют ≥80 ГБ быстрой RAM, что доступно разве что на RTX 4090 или Strix Halo. - Критичным становится слой знаний: RAG над личными файлами требует вектор-БД, а значит — много диска и оперативки; Docker-обёртка или
docker compose up -dпросится как минимальный способ разворачивания. - Пока локальные модели — скорее «увлекательное хобби» (медленно, глючно, нужен тюнинг), чем рабочий инструмент; облачные API (Cerebras, Groq) дают 1000 ток/с, но подрывают приватность.
- Сообщество просит готовый «всё-в-одном» стек: веб-поиск, голосовой режим, image-gen, лёгкий switch «локально ↔ облако» без потери данных.
- Несколько участников делятся своими решениями: Kasm + Ollama, Open WebUI, MLX-электрон-приложение, Synology-NAS-контейнеры, браузерный LLM без установки.