Hacker News Digest

29 октября 2025 г. в 05:50 • transformer-circuits.pub • ⭐ 84 • 💬 10

OriginalHN

#transformer#llm#anthropic#attention#positional-encoding#geometry

When models manipulate manifolds: The geometry of a counting task

Исследователи из Anthropic изучают, как трансформерные модели манипулируют геометрическими структурами (многообразиями) при выполнении задачи подсчета. Анализ показывает, что модели создают сложные представления чисел в многомерном пространстве, где операции подсчета соответствуют геометрическим трансформациям этих структур.

Ученые обнаружили, что модели используют комбинацию внимания и позиционных кодировок для построения "геометрических путей" между числовыми состояниями. Эти пути позволяют модели эффективно выполнять операции инкремента и декремента, сохраняя при этом числовую семантику. Исследование демонстрирует, что даже простые арифметические задачи требуют от моделей построения сложных геометрических конструкций в их внутреннем пространстве представлений.