Solving a million-step LLM task with zero errors
Исследователи представили MAKER — первую систему, решающую задачи с более чем миллионом шагов для языковых моделей без ошибок. Традиционные LLM сталкиваются с накоплением ошибок при выполнении длинных последовательностей действий, как показывают эксперименты с "Башнями Ханой", где процесс неизбежно сбивается после нескольких сотен шагов. MAKER достигает беспрецедентной надежности через экстременную декомпозицию задач на микроагенты, каждый из которых фокусируется на узком подзадании.
Ключом к успеху является модульная архитектура, позволяющая применять эффективную схему многоагентного голосования для коррекции ошибок на каждом шаге. Авторы утверждают, что этот подход масштабируется далеко за пределы миллиона шагов и предлагает альтернативный путь развития ИИ — массово декомпозированные агентные процессы (MDAP) вместо постоянного улучшения отдельных моделей. Это открывает возможности для решения задач на уровне организаций и обществ, которые ранее были недостижимы из-за ограничений текущих LLM.
Комментарии (61)
-
Исследование показывает, что применение рекурсивного разбиения задачи на подзадачи и голосование за шаг позволяет даже относительно небольшой LLM решать сложные задачи, такие как Ханойская башня с 20 кольцами (1M шагов), но при этом не упоминается, что это может быть просто эволюция идей MoE, и не упоминается, что такой подход не решает проблему, что LLM не может решить задачу даже при небольшом количестве шагов, если только они не будут идеально точными.
-
Участники обсуждения отмечают, что статья не упоминает Mixture of Experts (MoE), хотя кажется, что это логичное продолжение идей MoE, и что такой подход может быть не более чем естественное продолжение этих идей.
-
Также отмечается, что в статье не упоминается, что такой подход не решает проблему, что LLM не может решить задачу даже при небольшом количестве шагов, если только они не будут идеально точными.
-
Некоторые участники обсуждения также отмечают, что статья не упоминает, что такой подход не решает проблему, что LLM не может решить задачу даже при небольшом количестве шагов, если только они не будут идеально точными.
Don't Build Multi-Agents
Не создавайте мульти-агентов
Фреймворки для LLM-агентов разочаровывают. Ниже — выжимка из нашего опыта и почему популярные идеи работают плохо.
Принципы контекст-инжиниринга
- Делитесь контекстом целиком
- Действия несут скрытые решения
Пока в мире LLM мы как в 1993-м с HTML: нет стандарта. Библиотеки вроде OpenAI Swarm и Microsoft Autogen продвигают мульти-агентов, но это, по нашему опыту, ошибка.
Почему мульти-агенты хрупки
Классическая схема:
- разбить задачу на подзадачи,
- запустить под-агентов,
- собрать результат.
Проблема: каждый уровень теряет детали. Пример: «сделай Flappy Bird» → под-агенты делают фон Mario и птицу, не похожую на оригинал. Сводить такие части — головная боль.
Принцип 1
Передавайте не сообщения, а полные трейсы агента.
Даже если дать всем под-агентам исходный промпт, в реальном диалоге уже были вызовы инструментов, уточнения, и контекст всё равно размывается.
Комментарии (61)
- Пользователи обсуждают, что «агенты» — это просто разные промпты к одному и тому же API, а не отдельные сущности.
- Основная проблема — «размывание» контекста: при ~50 k токенов агенты теряют цель, поэтому многие отказались от сложных мульти-агентных схем в пользу одного агента + умного управления контекстом.
- Предложено строить «компиляторы контекста» вместо ручной курирования и использовать фиксированные pipeline-ы вместо свободно общающихся агентов.
- Некоторые сравнивают подход с супервизорами Erlang, но большинство считает это переизобретением старых идей.
- Общий вывод: пока нет надёжности, мульти-агентные системы неэффективны; начинать стоит с простейших блоков и адаптировать под свою задачу.