Solving a million-step LLM task with zero errors
Исследователи представили MAKER — первую систему, решающую задачи с более чем миллионом шагов для языковых моделей без ошибок. Традиционные LLM сталкиваются с накоплением ошибок при выполнении длинных последовательностей действий, как показывают эксперименты с "Башнями Ханой", где процесс неизбежно сбивается после нескольких сотен шагов. MAKER достигает беспрецедентной надежности через экстременную декомпозицию задач на микроагенты, каждый из которых фокусируется на узком подзадании.
Ключом к успеху является модульная архитектура, позволяющая применять эффективную схему многоагентного голосования для коррекции ошибок на каждом шаге. Авторы утверждают, что этот подход масштабируется далеко за пределы миллиона шагов и предлагает альтернативный путь развития ИИ — массово декомпозированные агентные процессы (MDAP) вместо постоянного улучшения отдельных моделей. Это открывает возможности для решения задач на уровне организаций и обществ, которые ранее были недостижимы из-за ограничений текущих LLM.
Комментарии (61)
-
Исследование показывает, что применение рекурсивного разбиения задачи на подзадачи и голосование за шаг позволяет даже относительно небольшой LLM решать сложные задачи, такие как Ханойская башня с 20 кольцами (1M шагов), но при этом не упоминается, что это может быть просто эволюция идей MoE, и не упоминается, что такой подход не решает проблему, что LLM не может решить задачу даже при небольшом количестве шагов, если только они не будут идеально точными.
-
Участники обсуждения отмечают, что статья не упоминает Mixture of Experts (MoE), хотя кажется, что это логичное продолжение идей MoE, и что такой подход может быть не более чем естественное продолжение этих идей.
-
Также отмечается, что в статье не упоминается, что такой подход не решает проблему, что LLM не может решить задачу даже при небольшом количестве шагов, если только они не будут идеально точными.
-
Некоторые участники обсуждения также отмечают, что статья не упоминает, что такой подход не решает проблему, что LLM не может решить задачу даже при небольшом количестве шагов, если только они не будут идеально точными.
Automating Algorithm Discovery: A Case Study in MoE Load Balancing
Notion — это универсальное рабочее пространство, объединяющее блокнот, базу данных, задачник и вики в одном приложении. Его главная особенность — гибкая система блоков, которые можно перетаскивать и настраивать под любые нужды, от простых заметок до сложных проектов. Пользователи создают персональные дашборды, управляют задачами, ведут базы знаний и даже строят целые рабочие процессы без кода.
Приложение завоевало популярность благодаря минималистичному дизайну и мощным возможностям кастомизации. По данным компании, у Notion более 20 миллионов пользователей по всему миру, включая команды в таких компаниях, как Airbnb, Disney и Pixar. "Мы хотим создать операционную систему для знаний", — отмечают основатели, подчеркивая амбиции стать платформой для управления информацией любой сложности.
Комментарии (55)
- AI-открытый алгоритм балансировки нагрузки в MoE-моделях оказался в 5 раз быстрее, но вызвал споры о том, действительно ли это «открытие» или просто удачная генерация кода.
- Критика в том, что LLM не «открывает» алгоритмы, а лишь генерирует код, который может быть удачным, и что человеческий экспертизе все еще необходима, чтобы проверить и понять этот код.
- Обсуждение также подняло вопрос о том, что если LLM может предложить алгоритм, то он должен быть в состоянии объяснить, как он работает, и что это может быть критично для безопасности и надежности системы.
- Некоторые комментаторы подчеркнули, что вместо того, чтобы полагаться на «открытие» алгоритма, стоит ли это вообще обсуждать, какие именно критерии безопасности и эффективности мы хотим, чтобы будущие системы могли бы быть устойчивы к подобным «открытиям».
Moondream 3 Preview: Frontier-level reasoning at a blazing speed 🔥 Горячее
Moondream 3 — это предварительная версия модели компьютерного зрения с архитектурой MoE на 9 млрд параметров, из которых активно используются только 2 млрд. Это позволяет ей достигать уровня передовых моделей в задачах визуального анализа, сохраняя при этом высокую скорость и низкую стоимость инференса. Ключевые улучшения включают расширение контекста до 32 тыс. токенов, лучшую обучаемость (включая обучение с подкреплением) и нативную поддержку сложных запросов, таких как детекция объектов, указание на элементы и структурированный вывод.
Модель демонстрирует впечатляющие результаты: точно определяет объекты по описанию (например, «бегун в фиолетовых носках»), генерирует JSON по изображению, преобразует таблицы в Markdown и работает с OCR. Несмотря на компактность, в бенчмарках она конкурирует с топовыми решениями, но делает это в разы быстрее и дешевле, что открывает возможности для массового применения в робототехнике, медицине и системах наблюдения.
Комментарии (38)
- Moondream 2 и 3 высоко оцениваются за точность и скорость в задачах автоматической разметки датасетов и детекции объектов, особенно для краевых устройств.
- Архитектура MoE модели с активацией только 2B параметров считается прорывом для развертывания на edge-устройствах из-за низкой задержки и стоимости инференса.
- Отмечаются проблемы с точностью (precision) в последних релизах, а также отсутствие информации о ценах в облаке и временная лицензия BSL для превью Moondream 3.
- Модель демонстрирует впечатляющие результаты в сравнении с крупными коммерческими аналогами (Gemini, Claude, OpenAI), особенно в задачах, смежных с OCR.
- Потенциальные применения включают автоматизацию работы с UI, анализ графиков и диаграмм, а также управление компьютером/браузером.
Qwen3-Next 🔥 Горячее 💬 Длинная дискуссия
Конечно! Пожалуйста, пришлите текст, который нужно перевести и сократить.
Комментарии (198)
- Qwen3-Next: 80B MoE, линейное внимание, MTP без +2 ГБ матриц; 256K контекст, 1M через YaRN.
- На чате 80B-A3B работает как 235B-A22B, быстрее 14B-плотных, укладывается в 64 ГБ ОЗУ.
- Код: GPT-OSS-20B-уровень, ASCII-арт «СпанчБоб» выдаётся без запоминания, MoE-шум заметен.
- Эффективность 10× вызывает споры: Jevons-эффект → тренируют ещё больше, спрос на GPU не падает.
- GGUF/VRAM пока не выложены, цена выше GPT-OSS-120B; ждут open-бенчмарков и офлайн-конвертации.