Less is more: Recursive reasoning with tiny networks

Предложена новая архитектура Tiny Recursive Model (TRM), которая использует рекурсивные вызовы одной маленькой сети всего с двумя слоями и 7 миллионами параметров для решения сложных логических задач. Она превосходит большие языковые модели, достигая 45% точности на тестах ARC-AGI-1 и 8% на ARC-AGI-2, что выше результатов многих LLM, включая Deepseek R1 и Gemini 2.5 Pro.

Метод демонстрирует, что рекурсивное мышление с минимальными вычислительными ресурсами может эффективно справляться с задачами, требующими абстрактного рассуждения, такими как судоку и лабиринты. Это открывает перспективы для создания более эффективных ИИ-систем, способных обобщать знания на основе небольшого количества примеров.

Комментарии (54)

Предложена новая архитектура HRM, использующая две рекуррентные нейросети с разной частотой
Модель вдохновлена биологическими принципами иерархического мышления
Превосходит большие языковые модели (LLM) в решении сложных головоломок (Судоку, Лабиринты, ARC-AGI)
Обучена на небольших моделях (27M параметров) и малом количестве данных (~1000 примеров)
Перспективна для решения сложных задач с малыми вычислительными ресурсами