When models manipulate manifolds: The geometry of a counting task
Исследователи из Anthropic изучают, как трансформерные модели манипулируют геометрическими структурами (многообразиями) при выполнении задачи подсчета. Анализ показывает, что модели создают сложные представления чисел в многомерном пространстве, где операции подсчета соответствуют геометрическим трансформациям этих структур.
Ученые обнаружили, что модели используют комбинацию внимания и позиционных кодировок для построения "геометрических путей" между числовыми состояниями. Эти пути позволяют модели эффективно выполнять операции инкремента и декремента, сохраняя при этом числовую семантику. Исследование демонстрирует, что даже простые арифметические задачи требуют от моделей построения сложных геометрических конструкций в их внутреннем пространстве представлений.