Hacker News Digest

02 сентября 2025 г. в 23:10 • gilesthomas.com • ⭐ 443 • 💬 98

OriginalHN

#machine-learning#neural-networks#transformers#attention-mechanism#embeddings#backpropagation#linear-algebra#python#tensor-analysis#llm

The maths you need to start understanding LLMs

  • Векторы и матрицы: LLM всё превращают в вектора; главное — скалярное произведение и умножение матриц.
  • Softmax: превращает логиты в вероятности; температура регулирует «уверенность».
  • Градиент и производная: показывают, как чуть изменить вес, чтобы ошибка уменьшилась.
  • Цепное правило: позволяет распространить ошибку через слои; сердце backprop.
  • Эмбеддинги: строки → векторы; чем ближе векторы, тем похожее значение.
  • Attention: Q·K^T выделяет релевантные токены; V несёт смысл; маска прячет будущее.
  • MLP в трансформере: два линейных слоя с ReLU; увеличивает выразительность.
  • LayerNorm: стабилизирует распределение после каждого подслоя.
  • Позиционное кодирование: добавляет «адрес» токену, иначе порядок теряется.
  • Лосс (cross-entropy): средняя «удивлённость»; оптимизатор (Adam) крутит веса.

Дальше — только масштаб: больше слоёв, голов, данных и видеокарт.