Language models pack billions of concepts into 12k dimensions

Как языковые модели размещают миллиарды понятий в 12 000 измерений

Главное: в пространстве 12 288 измерений (GPT-3) умещаются миллионы понятий не за счёт строгой ортогональности, а благодаря «квазиортогональности» — углам 76–95°.

Почему это работает:

В N измерениях только N векторов могут быть строго ортогональны.
Если разрешить уклон ±15°, вместимость взрывается: экспонента по N.
Лемма Джонсона-Линденштраусса обещает: при проецировании в k ≈ 8 ln N / ε² измерений попарные расстояния сохраняются с точностью 1 ± ε.

Подводный камень оптимизатора:
Исходная функция потерь ∑|cos θᵢⱼ| даёт вырожденное решение: 99 % пар почти ортогональны, 1 % почти коллинеарны.
Фикс: экспоненциальный штраф ∑exp(20 cos²θᵢⱼ) — максимальный угол вырос до 76,5°.

Следствие для ML:

Эмбеддинги не требуют ортогональности; им достаточно «достаточной разреженности» углов.
JL-лемма объясняет, почему 12 000 измерений хватает для миллиардов концепций.

Комментарии (119)

Обсуждение критикует статью за переоценку ёмкости 12k-мерного пространства для представления концепций, указывая на путаницу между количеством векторов и семантическими понятиями.
Участники подчеркивают, что ключевая проблема — не ортогональность векторов, а сохранение семантических расстояний и иерархий между неортогональными концепциями с помощью нелинейностей (например, softmax).
Отмечается, что способность упаковывать много векторов (сферические коды) не эквивалентна способности модели представлять и различать реальные смыслы.
Ссылаются на гипотезу суперпозиции и Sparse Autoencoders (SAEs) из mechanistic interpretability как на более корректный подход к анализу.
Критикуется стиль статьи как похожий на сгенерированный ИИ, с избытком громких эпитетов и недостаточной глубиной анализа.