Language models pack billions of concepts into 12k dimensions
Как языковые модели размещают миллиарды понятий в 12 000 измерений
Главное: в пространстве 12 288 измерений (GPT-3) умещаются миллионы понятий не за счёт строгой ортогональности, а благодаря «квазиортогональности» — углам 76–95°.
Почему это работает:
- В N измерениях только N векторов могут быть строго ортогональны.
- Если разрешить уклон ±15°, вместимость взрывается: экспонента по N.
- Лемма Джонсона-Линденштраусса обещает: при проецировании в k ≈ 8 ln N / ε² измерений попарные расстояния сохраняются с точностью 1 ± ε.
Подводный камень оптимизатора:
Исходная функция потерь ∑|cos θᵢⱼ| даёт вырожденное решение: 99 % пар почти ортогональны, 1 % почти коллинеарны.
Фикс: экспоненциальный штраф ∑exp(20 cos²θᵢⱼ) — максимальный угол вырос до 76,5°.
Следствие для ML:
- Эмбеддинги не требуют ортогональности; им достаточно «достаточной разреженности» углов.
- JL-лемма объясняет, почему 12 000 измерений хватает для миллиардов концепций.