Тег: #linear-algebra — Hacker News Digest

The maths you need to start understanding LLMs (gilesthomas.com) 🔥 Горячее

Векторы и матрицы: LLM всё превращают в вектора; главное — скалярное произведение и умножение матриц.
Softmax: превращает логиты в вероятности; температура регулирует «уверенность».
Градиент и производная: показывают, как чуть изменить вес, чтобы ошибка уменьшилась.
Цепное правило: позволяет распространить ошибку через слои; сердце backprop.
Эмбеддинги: строки → векторы; чем ближе векторы, тем похожее значение.
Attention: Q·K^T выделяет релевантные токены; V несёт смысл; маска прячет будущее.
MLP в трансформере: два линейных слоя с ReLU; увеличивает выразительность.
LayerNorm: стабилизирует распределение после каждого подслоя.
Позиционное кодирование: добавляет «адрес» токену, иначе порядок теряется.
Лосс (cross-entropy): средняя «удивлённость»; оптимизатор (Adam) крутит веса.

Дальше — только масштаб: больше слоёв, голов, данных и видеокарт.

by gpjt • 02 сентября 2025 г. в 23:10 • 358 points

#linear-algebra #matrices #softmax #gradient-descent #embeddings #attention-mechanism #transformers #layer-normalization #positional-encoding #cross-entropy

Комментарии (83)

Кто-то рад, что старые знания по физике и тензорам пригодились для понимания LLM.
Другие советуют практиковаться с видео Карпати и книгой «Build a Large Language Model from Scratch».
Основной математический минимум — линейная алгебра, softmax, градиентный спуск; без этого дальше не войти.
Важно не путать эмбеддинги (лишь вход) с полноценной 1,8-трлн-параметровой трансформерной моделью.
LLM — это цепочка логит-генераторов, и каждый вызов добавляет неопределённость, которая быстро накапливается.

The Little Book of Linear Algebra (github.com) 🔥 Горячее

Репозиторий the-litte-book-of/linear-algebra на GitHub.
Эпиграф Жана Дьёдонне: «Линейная алгебра — почти самая элементарная теория, хотя преподаватели и авторы учебников на протяжении поколений затемняли её простоту чудовищными выкладками с матрицами».

Меню навигации, вход, настройки внешнего вида, поиск и другие стандартные элементы GitHub опущены.

by scapbi • 02 сентября 2025 г. в 14:17 • 421 points

Оригинал • HN

#linear-algebra #3blue1brown #mathematics #visualization #machine-learning #graphic #3d #economics #github

Комментарии (104)

Линейная алгебра считается глубокой и полезной, но базовая механика скучна.
Многие советуют начинать с геометрической интуиции и визуализации (3Blue1Brown, «Wild Linear Algebra», mini-book photon_lines).
Книга Axler «Linear Algebra Done Right» и курс Hefferon хвалятся за строгий, но понятный подход.
Практика в графике/3D, экономике, машинном обучении и сжатии JPEG делает тему мотивирующей.
Сообщество жалуется на плохое преподавание и просит больше визуальных объяснений, меньше «так надо».

Important machine learning equations (chizkidd.github.io) 🔥 Горячее

Байес

$$P(A|B)=\frac{P(B|A)P(A)}{P(B)}$$ Обновляем вероятность гипотезы при новых данных.

def bayes(p_d, p_t_d, p_t_nd):
    p_t = p_t_d*p_d + p_t_nd*(1-p_d)
    return p_t_d*p_d / p_t

Энтропия

$$H(X)=-\sum_x P(x)\log P(x)$$ Измеряем неопределённость распределения.

import numpy as np
H = lambda p: -np.sum(p*np.log(p, where=p>0))

KL-дивергенция

$$D_{\text{KL}}(P|Q)=\sum_x P(x)\log\frac{P(x)}{Q(x)}$$ Сколько бит «лишних» нужно, если вместо истинного распределения $P$ использовать $Q$.

Кросс-энтропия

$$H(P,Q)=-\sum_x P(x)\log Q(x)$$ Используется как лосс в классификации.

Линейная алгебра

Линейное преобразование

$$\mathbf{y}=A\mathbf{x}$$ Матрица $A$ переводит вектор $\mathbf{x}$ в пространство признаков.

Собственные значения и векторы

$$A\mathbf{v}=\lambda\mathbf{v}$$ Направления, вдоль которых преобразование лишь растягивает/сжимает.

SVD

$$A=U\Sigma V^\top$$ Разложение на ортогональные и диагональные матрицы; основа PCA и рекомендательных систем.

Оптимизация

Градиентный спуск

$$\theta_{t+1}=\theta_t-\eta\nabla_\theta J(\theta)$$ Шагаем против градиента, чтобы минимизировать функцию потерь $J$.

Backprop

$$\frac{\partial L}{\partial W^{(l)}}=\delta^{(l)}(a^{(l-1)})^\top$$ Цепное правило для обучения нейросетей.

Функции потерь

MSE

$$\text{MSE}=\frac{1}{n}\sum_i (y_i-\hat y_i)^2$$ Классика регрессии.

Кросс-энтропия

$$L=-\sum_i y_i\log \hat y_i$$ Стандарт для классификации.

Продвинутые темы

Диффузия

$$q(x_t|x_{t-1})=\mathcal N(x_t;\sqrt{1-\beta_t}x_{t-1},\beta_t I)$$ Постепенное добавление шума и обратное восстановление.

Свертка

$$(f*g)[n]=\sum_m f[m]g[n-m]$$ Извлечение локальных паттернов в CNN.

Softmax

$$\text{softmax}(z_i)=\frac{e^{z_i}}{\sum_j e^{z_j}}$$ Превращает логиты в вероятности.

Attention

$$\text{Attention}(Q,K,V)=\text{softmax}\left(\frac{QK^\top}{\sqrt d_k}\right)V$$ Взвешенная сумма значений по релевантности запроса и ключей.

Краткий конспект ключевых уравнений ML: от вероятностей до трансформеров, с кодом и интуицией.

by sebg • 28 августа 2025 г. в 11:38 • 265 points

Оригинал • HN

#machine-learning #python #numpy #linear-algebra #optimization #deep-learning #probability #statistics #transformers #convolutional-neural-networks

Комментарии (26)

@dkislyuk и @morleytj критикуют формат «списка формул» без связного объяснения и советуют читать оригинальную теорию Шеннона.
@cl3misch нашёл баг в коде энтропии из-за неинициализированных значений и несоответствие формулы кросс-энтропии.
@dawnofdusk и @cgadski хвалят полноту материала как удобную шпаргалку для быстрого погружения.
@bee_rider и @calebkaiser обсуждают применение сингулярных чисел и собственных значений в LLM и LoRA.