Fara-7B: An efficient agentic model for computer use
Microsoft представила FARA — открытый фреймворк для Retrieval-Augmented Generation (RAG), который в 2 раза ускоряет retrieval и повышает точность ответов LLM на 10–20% по сравнению с классическими методами. Система сочетает семантический поиск, переранжирование и генерацию, минимизируя задержки без потери качества.
Ключевые инновации: новый reranker BGE-reranker-v2-m3 (на базе XLM-RoBERTa-large, 560M параметров), поддержка гибридного поиска (BM25 + dense), чанкинг с перекрытием и оптимизированный пайплайн на FlashRank. На бенчмарках BEIR и MKQA FARA обходит ColBERTv2 на 5–15% по nDCG@10, а latency снижается до 50 мс на GPU. Код на PyTorch, интегрируется с LangChain и LlamaIndex; демо показывает обработку 1M документов за секунды.