Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens

Исследователи из Университета Аризоны показали: «цепочка мыслей» в LLM — хрупкая иллюзия.
Модель хорошо копирует примеры из обучения, но при малейшем отклонении задачи логика рушится.
Для проверки создали DataAlchemy: обучали крошечные LLM двум простым преобразованиям текста (ROT-шифр и циклический сдвиг), затем давали задания вне этой области.
Даже умеренный сдвиг распределения резко снижал точность, подтверждая, что «рассуждение» — лишь имитация известных шаблонов.

Исследование на «игрушечных» GPT2-моделях вызывает споры: критики считают, что выводы нельзя экстраполировать на большие LLM.
Участники сходятся во мнении, что LLM не «рассуждают», а лишь имитируют рассуждения, особенно при выходе за пределы обучающих паттернов.
Некоторые считают такие работы полезными для развенчания гиперболы вокруг «магии» LLM и снижения завышенных ожиданий.
Другие подчеркивают, что даже если модель «угадывает» ответ, это не доказывает наличие логики, а лишь показывает интерполяцию.