Reasoning models reason well, until they don't
Исследователи изучают возможности моделей рассуждений (LRM), которые улучшены для пошагового анализа и самопроверки. Несмотря на впечатляющие результаты на таких наборах данных, как NLGraph, где LRM демонстрируют способность к обобщению в математике, физике и других областях, их эффективность резко падает при увеличении сложности задач. Авторы создали новый dataset — Deep Reasoning Dataset (DeepRD), который позволяет генерировать задачи с контролируемой сложностью. На примере проверки связности графов и планирования доказательств в естественном языке выяснилось, что даже передовые модели теряют точность, когда задачи выходят за рамки определенного уровня сложности.
Анализ реальных данных показывает, что подавляющее большинство примеров (графы знаний, взаимодействий, математические доказательства) попадают в зону, где LRM работают эффективно. Однако «длинные хвосты» сложности — редкие, но сложные случаи — раскрывают их ограничения. Например, даже такие модели, как GPT-4o, теряют более 50% точности на задачах, выходящих за пределы привычного диапазона. Это подчеркивает необходимость разработки новых подходов, способных справляться с высокой сложностью, особенно в критически важных областях, где ошибки могут быть неприемлемы.