The maths you need to start understanding LLMs

Векторы и матрицы: LLM всё превращают в вектора; главное — скалярное произведение и умножение матриц.
Softmax: превращает логиты в вероятности; температура регулирует «уверенность».
Градиент и производная: показывают, как чуть изменить вес, чтобы ошибка уменьшилась.
Цепное правило: позволяет распространить ошибку через слои; сердце backprop.
Эмбеддинги: строки → векторы; чем ближе векторы, тем похожее значение.
Attention: Q·K^T выделяет релевантные токены; V несёт смысл; маска прячет будущее.
MLP в трансформере: два линейных слоя с ReLU; увеличивает выразительность.
LayerNorm: стабилизирует распределение после каждого подслоя.
Позиционное кодирование: добавляет «адрес» токену, иначе порядок теряется.
Лосс (cross-entropy): средняя «удивлённость»; оптимизатор (Adam) крутит веса.

Дальше — только масштаб: больше слоёв, голов, данных и видеокарт.

Физики и математики вспомнили, что знание тензорного исчисления, линалгебры и энтропии пригодилось для понимания backprop и LLM.
Практика: «смотреть» Karpathy недостаточно — нужно кодить за ним; его курс даёт базы и уверенность копать дальше.
Книга «Build a Large Language Model (from Scratch)» идёт шаг-за-шагом, но объясняет только вычисления, а не «почему это вообще работает»; explainability всё ещё исследуется.
Путаница: эмбеддинги ≠ вся модель; они лишь вход для трансформера, внутри которого 1,8 трлн параметров и «чёрный ящик».
LLM — логит-генераторы с неизбежной неопределённостью; цепочки моделей накапливают ошибку и быстро «ломаются» без человека-оркестратора.
Для 99 % разработчиков хватает линалгебры, softmax, градиентов и PyTorch; остальное — инженерия данных, трюки и эксперименты.