Fara-7B: An efficient agentic model for computer use
Microsoft представила FARA — открытый фреймворк для Retrieval-Augmented Generation (RAG), который в 2 раза ускоряет retrieval и повышает точность ответов LLM на 10–20% по сравнению с классическими методами. Система сочетает семантический поиск, переранжирование и генерацию, минимизируя задержки без потери качества.
Ключевые инновации: новый reranker BGE-reranker-v2-m3 (на базе XLM-RoBERTa-large, 560M параметров), поддержка гибридного поиска (BM25 + dense), чанкинг с перекрытием и оптимизированный пайплайн на FlashRank. На бенчмарках BEIR и MKQA FARA обходит ColBERTv2 на 5–15% по nDCG@10, а latency снижается до 50 мс на GPU. Код на PyTorch, интегрируется с LangChain и LlamaIndex; демо показывает обработку 1M документов за секунды.
Комментарии (68)
- Microsoft выпустил Fara-7B (fine-tune Qwen2.5-VL-7B) для автоматизации браузерных задач с новым бенчмарком WebTailBench, где лидирует GPT-4o.
- Скепсис: зачем 7B-модель и GPU для кликов по веб-страницам, когда скрипты справлялись годами; критика переусложнения и Microsoft AI-хайпа.
- Обсуждение synthetic data (эффективно и безопасно), VRAM-требований (17GB, quantized версии на 12GB), локального запуска и цензуры модели.
- Use cases: шопинг, сравнения; интерес к agentic моделям для игр (Kerbal Space Program, покер); "agentic" — модели с agency для инструментов.
Production RAG: what I learned from processing 5M+ documents 🔥 Горячее
За 8 месяцев работы над RAG-системами для обработки 13+ миллионов документов автор выявил ключевые факторы успеха. Начав с типового стека Langchain + Llamaindex по туториалам, команда столкнулась с тем, что прототип на 100 документах показывал отличные результаты, а на полном наборе данных - провальные. Основные улучшения, давшие наибольший эффект: генерация множества семантических и ключевых запросов параллельно с исходным, реранкинг (оптимальное соотношение 50:15 чанков), тщательная настройка чанкинга с сохранением логических единиц, добавление метаданных в контекст LLM и маршрутизация запросов, не требующих поиска по базе.
Технологический эволюция включала переход от Azure к Pinecone, а затем Turbopuffer для векторного хранилища, от Cohere к Zerank для реранкинга, и от GPT-4.1 к GPT-5 и обратно. Автор подчеркивает, что реранкинг - "самые ценные 5 строк кода", а на чанкинг уходит большая часть времени. Весь опыт был упакован в open-source проект agentset под лицензией MIT.
Комментарии (104)
- Обсуждение охватывает широкий спектр тем: от генерации синтетических запросов и проблем с их качеством до самостоятельного хостинга, отсутствия настоящего самостоятельного хостинга и до влияния выбора модели эмбеддинга на качество и стоимость.
- Участники обмениваются практическими советами по оптимизации чанкинга, реранкинга и использованию различных моделей эмбеддинга и ранжирования.
- Обсуждаются сложности с интеграцией и стоимостью при использовании сторонних сервисов, а также вопросы безопасности и контроля при использовании облачных сервисов.
- Рассматриваются вопросы о том, какие факторы действительно важны при выборе инструментов и подходов, и какие из них являются просто маркетинговыми фишками.