Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens
Исследователи из Университета Аризоны показали: «цепочка мыслей» в LLM — хрупкая иллюзия.
Модель хорошо копирует примеры из обучения, но при малейшем отклонении задачи логика рушится.
Для проверки создали DataAlchemy: обучали крошечные LLM двум простым преобразованиям текста (ROT-шифр и циклический сдвиг), затем давали задания вне этой области.
Даже умеренный сдвиг распределения резко снижал точность, подтверждая, что «рассуждение» — лишь имитация известных шаблонов.