Is chain-of-thought AI reasoning a mirage?
Краткий перевод и сжатие
Суть претензии к статье ASU
Авторы обучили крошечную модель (600 k параметров) решать алфавитные задачи вида «A B C D [M1] → B C D E» и выводить цепочки мыслей. Они показали, что при малейшем сдвиге распределения (новая последовательность операций, лишний токен, увеличение длины) модель ломается. Отсюда вывод: «рассуждения» — это лишь копирование шаблонов из обучения, а не логический вывод.
Почему это неубедительно
- Без языка нет рассуждений
Настоящие цепочки мыслей полны «подожди», «а если…» и самокоррекции. Задача «сдвинь буквы» — это вычисление, а не рассуждение. - Слишком маленькая модель
У 600 k параметров просто не хватит «мозгов» разложить сложное правило на части. Способность к рассуждению появляется у крупных моделей. - Сравнение с человеком отсутствует
Люди тоже путаются при новых формулировках и учатся на примерах. Без измерения человеческих ошибок утверждение «это мираж» не имеет опоры.
Вывод
На игрушечной задаче нельзя судить о природе рассуждений в больших языковых моделях.