Why can't transformers learn multiplication?
Исследователи выяснили, почему трансформеры не справляются с задачей умножения многозначных чисел, несмотря на свои широкие возможности. Обратная инженерия модели, успешно обученной умножению через неявную цепочку мыслей, выявила три ключевых аспекта: модель кодирует длинные зависимости с помощью внимания, создавая направленный ациклический граф для "кэширования" и "извлечения" частичных произведений; она реализует эти произведения через суммы Минковского между парами цифр; и представляет цифры с использованием базиса Фурье — интуитивного представления, которого не хватает стандартным моделям.
При стандартной настройке модель сходится к локальному оптимуму без необходимых длинных зависимостей. Однако авторам удалось решить эту проблему, введя дополнительную функцию потерь, предсказывающую "текущую сумму" через линейный регрессионный зонд. Это индуктивное смещение позволило модели успешно освоить умножение, выявляя фундаментальную проблему обучения длинных зависимостей в трансформерах и показывая путь к ее преодолению.