Тег: #llamaindex — Hacker News Digest

Fara-7B: An efficient agentic model for computer use (github.com)

Microsoft представила FARA — открытый фреймворк для Retrieval-Augmented Generation (RAG), который в 2 раза ускоряет retrieval и повышает точность ответов LLM на 10–20% по сравнению с классическими методами. Система сочетает семантический поиск, переранжирование и генерацию, минимизируя задержки без потери качества.

Ключевые инновации: новый reranker BGE-reranker-v2-m3 (на базе XLM-RoBERTa-large, 560M параметров), поддержка гибридного поиска (BM25 + dense), чанкинг с перекрытием и оптимизированный пайплайн на FlashRank. На бенчмарках BEIR и MKQA FARA обходит ColBERTv2 на 5–15% по nDCG@10, а latency снижается до 50 мс на GPU. Код на PyTorch, интегрируется с LangChain и LlamaIndex; демо показывает обработку 1M документов за секунды.

by maxloh • 26 ноября 2025 г. в 19:10 • 158 points

Оригинал • HN

#microsoft #pytorch #langchain #llamaindex #rag #fara #flashrank #bm25 #qwen2.5-vl-7b #gpt-4o

Комментарии (68)

Microsoft выпустил Fara-7B (fine-tune Qwen2.5-VL-7B) для автоматизации браузерных задач с новым бенчмарком WebTailBench, где лидирует GPT-4o.
Скепсис: зачем 7B-модель и GPU для кликов по веб-страницам, когда скрипты справлялись годами; критика переусложнения и Microsoft AI-хайпа.
Обсуждение synthetic data (эффективно и безопасно), VRAM-требований (17GB, quantized версии на 12GB), локального запуска и цензуры модели.
Use cases: шопинг, сравнения; интерес к agentic моделям для игр (Kerbal Space Program, покер); "agentic" — модели с agency для инструментов.

Production RAG: what I learned from processing 5M+ documents (blog.abdellatif.io) 🔥 Горячее

За 8 месяцев работы над RAG-системами для обработки 13+ миллионов документов автор выявил ключевые факторы успеха. Начав с типового стека Langchain + Llamaindex по туториалам, команда столкнулась с тем, что прототип на 100 документах показывал отличные результаты, а на полном наборе данных - провальные. Основные улучшения, давшие наибольший эффект: генерация множества семантических и ключевых запросов параллельно с исходным, реранкинг (оптимальное соотношение 50:15 чанков), тщательная настройка чанкинга с сохранением логических единиц, добавление метаданных в контекст LLM и маршрутизация запросов, не требующих поиска по базе.

Технологический эволюция включала переход от Azure к Pinecone, а затем Turbopuffer для векторного хранилища, от Cohere к Zerank для реранкинга, и от GPT-4.1 к GPT-5 и обратно. Автор подчеркивает, что реранкинг - "самые ценные 5 строк кода", а на чанкинг уходит большая часть времени. Весь опыт был упакован в open-source проект agentset под лицензией MIT.

by tifa2up • 20 октября 2025 г. в 15:55 • 492 points

Оригинал • HN

#langchain #llamaindex #azure #pinecone #turbopuffer #cohere #zerank #gpt-4 #gpt-5 #rag

Комментарии (104)

Обсуждение охватывает широкий спектр тем: от генерации синтетических запросов и проблем с их качеством до самостоятельного хостинга, отсутствия настоящего самостоятельного хостинга и до влияния выбора модели эмбеддинга на качество и стоимость.
Участники обмениваются практическими советами по оптимизации чанкинга, реранкинга и использованию различных моделей эмбеддинга и ранжирования.
Обсуждаются сложности с интеграцией и стоимостью при использовании сторонних сервисов, а также вопросы безопасности и контроля при использовании облачных сервисов.
Рассматриваются вопросы о том, какие факторы действительно важны при выборе инструментов и подходов, и какие из них являются просто маркетинговыми фишками.