LLMs encode how difficult problems are

Исследователи обнаружили, что большие языковые модели (LLM) кодируют сложность задач, но этот механизм не всегда соответствует человеческим представлениям. Анализ 60 моделей показал, что человеческая оценка сложности хорошо декодируется из внутренних представлений (ρ ≈ 0.88) и демонстрирует чёткую зависимость от размера модели, в то время как оценка сложности, основанная на производительности самой модели, значительно слабее и плохо масштабируется. Направление модели к "простым" представлениям уменьшает галлюцинации и повышает точность.

Во время обучения с использованием GRPO на Qwen2.5-Math-1.5B зонд, измеряющий человеческую оценку сложности, укреплялся и положительно коррелировал с точностью тестирования, в то время как зонд на основе LLM-оценки сложности деградировал и отрицательно коррелировал с производительностью. Это указывает на то, что человеческие аннотации обеспечивают стабильный сигнал сложности, который усиливается при обучении с подкреплением, в то время как автоматические оценки сложности становятся несогласованными именно по мере улучшения моделей.

Комментарии (29)

Обсуждение вращается вокруг идеи, что LLM — это не более чем «текстовое дополнение, управляемое сжатыми обучающими данными», и что эта метафора не даёт никакого объяснительного эффекта и вводит в заблуждение.
Участники обсуждения подчеркивают, что модели не «решают» задачи, а лишь аппроксимируют их в формате, где они уже были решены в обучающих данных, и что это ограничение важно помнить.
Также обсуждается, что оценки времени, которые дают модели, не имеют никакой обоснованности и являются не более чем грубой эвристикой, основанной на неполных или вводящих в заблуждение данных.
В конце концов, участники соглашаются, что важно помнить, что LLM — это инструмент, и что важно не забывать об ограничениях и возможностях этого инструмента и не приписывать ему неподходящие задачи.