Fara-7B: An efficient agentic model for computer use
Microsoft представила FARA — открытый фреймворк для Retrieval-Augmented Generation (RAG), который в 2 раза ускоряет retrieval и повышает точность ответов LLM на 10–20% по сравнению с классическими методами. Система сочетает семантический поиск, переранжирование и генерацию, минимизируя задержки без потери качества.
Ключевые инновации: новый reranker BGE-reranker-v2-m3 (на базе XLM-RoBERTa-large, 560M параметров), поддержка гибридного поиска (BM25 + dense), чанкинг с перекрытием и оптимизированный пайплайн на FlashRank. На бенчмарках BEIR и MKQA FARA обходит ColBERTv2 на 5–15% по nDCG@10, а latency снижается до 50 мс на GPU. Код на PyTorch, интегрируется с LangChain и LlamaIndex; демо показывает обработку 1M документов за секунды.
Комментарии (68)
- Microsoft выпустил Fara-7B (fine-tune Qwen2.5-VL-7B) для автоматизации браузерных задач с новым бенчмарком WebTailBench, где лидирует GPT-4o.
- Скепсис: зачем 7B-модель и GPU для кликов по веб-страницам, когда скрипты справлялись годами; критика переусложнения и Microsoft AI-хайпа.
- Обсуждение synthetic data (эффективно и безопасно), VRAM-требований (17GB, quantized версии на 12GB), локального запуска и цензуры модели.
- Use cases: шопинг, сравнения; интерес к agentic моделям для игр (Kerbal Space Program, покер); "agentic" — модели с agency для инструментов.
AI documentation you can talk to, for every repo
DeepWiki — это инструмент для индексации кода репозиториев, позволяющий "общаться" с их документацией через AI. Сервис использует Devin для анализа кода и предоставляет интерфейс для вопросов о любом проекте. Пользователи могут добавлять как публичные, так и приватные репозитории, получая мгновенные ответы по их структуре и функционалу. Это упрощает понимание сложных кодовых баз и ускоряет онбординг новых разработчиков.
На платформе уже доступны популярные репозитории, включая Microsoft VS Code (170k звёзд), Hugging Face Transformers (143k), LangChain (106k), SQLite (7.7k) и многие другие. DeepWiki позиционируется как решение для быстрого погружения в любой код без необходимости изучения документации вручную.
Комментарии (77)
- Пользователи жалуются на качество автогенерируемой документации: она устаревшая, путает детали реализации с пользовательским API и содержит ошибки.
- Некоторые участники считают, что если проект и так плохо документирован, то LLM-инструменты не спасут ситуацию, а другие указывают, что даже при наличии хорошей документации LLM может давать неверные сводки.
- Обсуждается, что вместо попыток «автоматически документировать» код, лучше встроить LLM в IDE/editor и дать разработчику возможность взаимодействовать с LLM в процессе написания кода.
- Поднимается вопрос о том, что если проект не имеет достойной документации, то LLM не сможет помочь, и что вместо этого лучше встроить LLM в IDE/editor и дать разработчику возможность взаимодействовать с LLM в процессе написания кода.
Production RAG: what I learned from processing 5M+ documents 🔥 Горячее
За 8 месяцев работы над RAG-системами для обработки 13+ миллионов документов автор выявил ключевые факторы успеха. Начав с типового стека Langchain + Llamaindex по туториалам, команда столкнулась с тем, что прототип на 100 документах показывал отличные результаты, а на полном наборе данных - провальные. Основные улучшения, давшие наибольший эффект: генерация множества семантических и ключевых запросов параллельно с исходным, реранкинг (оптимальное соотношение 50:15 чанков), тщательная настройка чанкинга с сохранением логических единиц, добавление метаданных в контекст LLM и маршрутизация запросов, не требующих поиска по базе.
Технологический эволюция включала переход от Azure к Pinecone, а затем Turbopuffer для векторного хранилища, от Cohere к Zerank для реранкинга, и от GPT-4.1 к GPT-5 и обратно. Автор подчеркивает, что реранкинг - "самые ценные 5 строк кода", а на чанкинг уходит большая часть времени. Весь опыт был упакован в open-source проект agentset под лицензией MIT.
Комментарии (104)
- Обсуждение охватывает широкий спектр тем: от генерации синтетических запросов и проблем с их качеством до самостоятельного хостинга, отсутствия настоящего самостоятельного хостинга и до влияния выбора модели эмбеддинга на качество и стоимость.
- Участники обмениваются практическими советами по оптимизации чанкинга, реранкинга и использованию различных моделей эмбеддинга и ранжирования.
- Обсуждаются сложности с интеграцией и стоимостью при использовании сторонних сервисов, а также вопросы безопасности и контроля при использовании облачных сервисов.
- Рассматриваются вопросы о том, какие факторы действительно важны при выборе инструментов и подходов, и какие из них являются просто маркетинговыми фишками.