Hacker News Digest

15 сентября 2025 г. в 03:54 • nickyoder.com • ⭐ 336 • 💬 119

OriginalHN

Language models pack billions of concepts into 12k dimensions

Как языковые модели размещают миллиарды понятий в 12 000 измерений

Главное: в пространстве 12 288 измерений (GPT-3) умещаются миллионы понятий не за счёт строгой ортогональности, а благодаря «квазиортогональности» — углам 76–95°.

Почему это работает:

  • В N измерениях только N векторов могут быть строго ортогональны.
  • Если разрешить уклон ±15°, вместимость взрывается: экспонента по N.
  • Лемма Джонсона-Линденштраусса обещает: при проецировании в k ≈ 8 ln N / ε² измерений попарные расстояния сохраняются с точностью 1 ± ε.

Подводный камень оптимизатора:
Исходная функция потерь ∑|cos θᵢⱼ| даёт вырожденное решение: 99 % пар почти ортогональны, 1 % почти коллинеарны.
Фикс: экспоненциальный штраф ∑exp(20 cos²θᵢⱼ) — максимальный угол вырос до 76,5°.

Следствие для ML:

  • Эмбеддинги не требуют ортогональности; им достаточно «достаточной разреженности» углов.
  • JL-лемма объясняет, почему 12 000 измерений хватает для миллиардов концепций.