Is chain-of-thought AI reasoning a mirage?

Краткий перевод и сжатие

Суть претензии к статье ASU
Авторы обучили крошечную модель (600 k параметров) решать алфавитные задачи вида «A B C D [M1] → B C D E» и выводить цепочки мыслей. Они показали, что при малейшем сдвиге распределения (новая последовательность операций, лишний токен, увеличение длины) модель ломается. Отсюда вывод: «рассуждения» — это лишь копирование шаблонов из обучения, а не логический вывод.

Почему это неубедительно

Без языка нет рассуждений
Настоящие цепочки мыслей полны «подожди», «а если…» и самокоррекции. Задача «сдвинь буквы» — это вычисление, а не рассуждение.
Слишком маленькая модель
У 600 k параметров просто не хватит «мозгов» разложить сложное правило на части. Способность к рассуждению появляется у крупных моделей.
Сравнение с человеком отсутствует
Люди тоже путаются при новых формулировках и учатся на примерах. Без измерения человеческих ошибок утверждение «это мираж» не имеет опоры.

Вывод
На игрушечной задаче нельзя судить о природе рассуждений в больших языковых моделях.

Комментарии (146)

Критикуемая статья исследует 4-слойную «игрушечную» модель, поэтому многие сомневаются, что выводы распространяются на большие LLM.
Спор идёт о том, заслуживает ли цепочка мыслей (CoT) названия «рассуждение»: кто-то видит в ней лишь стилизованное продолжение текста, кто-то — полезный механизм динамического выделения вычислений.
Часть участников считает «рассуждение» без причинно-следственных связей философским миражом; другие указывают, что для практики важен результат, а не внутренний процесс.
Поднимается вопрос: не лучше ли отказаться от токен-ориентированного текста и «думать» в скрытом пространстве или подключать символьные логические движки.
Общий вывод: CoT пока работает как эвристика для улучшения ответов, но не является надёжным или масштабируемым заменителем «настоящего» рассуждения.