Hacker News Digest

14 августа 2025 г. в 13:48 • seangoedecke.com • ⭐ 168 • 💬 146

OriginalHN

Is chain-of-thought AI reasoning a mirage?

Краткий перевод и сжатие

Суть претензии к статье ASU
Авторы обучили крошечную модель (600 k параметров) решать алфавитные задачи вида «A B C D [M1] → B C D E» и выводить цепочки мыслей. Они показали, что при малейшем сдвиге распределения (новая последовательность операций, лишний токен, увеличение длины) модель ломается. Отсюда вывод: «рассуждения» — это лишь копирование шаблонов из обучения, а не логический вывод.

Почему это неубедительно

  1. Без языка нет рассуждений
    Настоящие цепочки мыслей полны «подожди», «а если…» и самокоррекции. Задача «сдвинь буквы» — это вычисление, а не рассуждение.
  2. Слишком маленькая модель
    У 600 k параметров просто не хватит «мозгов» разложить сложное правило на части. Способность к рассуждению появляется у крупных моделей.
  3. Сравнение с человеком отсутствует
    Люди тоже путаются при новых формулировках и учатся на примерах. Без измерения человеческих ошибок утверждение «это мираж» не имеет опоры.

Вывод
На игрушечной задаче нельзя судить о природе рассуждений в больших языковых моделях.