Why can't transformers learn multiplication?

Исследователи выяснили, почему трансформеры не справляются с задачей умножения многозначных чисел, несмотря на свои широкие возможности. Обратная инженерия модели, успешно обученной умножению через неявную цепочку мыслей, выявила три ключевых аспекта: модель кодирует длинные зависимости с помощью внимания, создавая направленный ациклический граф для "кэширования" и "извлечения" частичных произведений; она реализует эти произведения через суммы Минковского между парами цифр; и представляет цифры с использованием базиса Фурье — интуитивного представления, которого не хватает стандартным моделям.

При стандартной настройке модель сходится к локальному оптимуму без необходимых длинных зависимостей. Однако авторам удалось решить эту проблему, введя дополнительную функцию потерь, предсказывающую "текущую сумму" через линейный регрессионный зонд. Это индуктивное смещение позволило модели успешно освоить умножение, выявляя фундаментальную проблему обучения длинных зависимостей в трансформерах и показывая путь к ее преодолению.

Комментарии (78)

Обсуждение показало, что трансформеры не умеют считать, потому что не умеют манипулировать символами, а не потому, что они не умеют считать.
Учёные спорят, нужно ли вообще учить модель арифметике, если она не может взаимодействовать с внешними инструментами.
Поднимается вопрос, не лучше ли вместо того, чтобы заставлять ИИ вспоминать, как работает умножение, дать ему возможность использовать внешние инструменты.
Учёные также обсуждают, что если модель не может манипулировать символами, то она не может и учиться, потому что обучение требует манипуляции символами.
Учёные также обсуждают, что если модель не может манипулировать символами, то она не может и учиться, потому что обучение требует манипуляции символами.