LLMs encode how difficult problems are
Исследователи обнаружили, что большие языковые модели (LLM) кодируют сложность задач, но этот механизм не всегда соответствует человеческим представлениям. Анализ 60 моделей показал, что человеческая оценка сложности хорошо декодируется из внутренних представлений (ρ ≈ 0.88) и демонстрирует чёткую зависимость от размера модели, в то время как оценка сложности, основанная на производительности самой модели, значительно слабее и плохо масштабируется. Направление модели к "простым" представлениям уменьшает галлюцинации и повышает точность.
Во время обучения с использованием GRPO на Qwen2.5-Math-1.5B зонд, измеряющий человеческую оценку сложности, укреплялся и положительно коррелировал с точностью тестирования, в то время как зонд на основе LLM-оценки сложности деградировал и отрицательно коррелировал с производительностью. Это указывает на то, что человеческие аннотации обеспечивают стабильный сигнал сложности, который усиливается при обучении с подкреплением, в то время как автоматические оценки сложности становятся несогласованными именно по мере улучшения моделей.