Hacker News Digest

Тег: #d3.js

Постов: 1

A Visual Exploration of Gaussian Processes (2019) (distill.pub)

Гауссовские процессы визуально

Гауссовские процессы (ГП) — это вероятностный метод регрессии, который не просто подгоняет кривую, а выдаёт распределение по всем возможным функциям, совместимым с данными. Среднее этого распределения — наилучшее предсказание; дисперсия — мера неопределённости. ГП применимы к регрессии, классификации и кластеризации.

Многомерное нормальное распределение

ГП строятся на многомерной нормальности
$X \sim \mathcal N(\mu,\Sigma)$.

$\mu$ — вектор средних.
$\Sigma$ — симметричная, положительно полуопределённая ковариационная матрица: диагональ $\sigma_i^2$ задаёт дисперсии, вне-диагональ $\sigma_{ij}$ — корреляции.

Интерактивный пример показывает, как меняется форма плотности при изменении $\mu$ и $\Sigma$.

Маргинализация и условие

У нормального распределения важное свойство:

Маргинализация — переход к подмножеству переменных сохраняет нормальность.
Условие — распределение переменной при фиксированных других тоже нормально.

Эти операции лежат в основе вывода ГП: наблюдая часть точек, мы получаем нормальное апостериорное распределение на остальных.

От многомерной нормали к ГП

ГП обобщает многомерную нормальность на континуум индексов (например, все точки времени или пространства). Любой конечный набор значений функции имеет совместное нормальное распределение. Задаётся:

Средняя функция $m(x)$ (часто $m(x)=0$).
Ковариационная функция $k(x,x')$, задающая гладкость и масштаб.

Популярные ядра:

RBF (радиальная): $\exp(-\tfrac{|x-x'|^2}{2\ell^2})$ — гладкие функции.
Периодическое: $\exp(-\tfrac{2\sin^2(\pi|x-x'|/p)}{\ell^2})$ — повторяющиеся паттерны.
Рациональное квадратичное: $(1+\tfrac{|x-x'|^2}{2\alpha\ell^2})^{-\alpha}$ — промежуточная гладкость.

Интерактив позволяет менять гиперпараметры $\ell$ (характерная длина) и $\sigma$ (амплитуда) и видеть, как меняются выборки функций.

Регрессия с ГП

Выбираем ядро и гиперпараметры.
Вычисляем ковариационную матрицу на обучающих точках $K_{XX}$.
Добавляем шум $\sigma_n^2 I$ для учёта наблюдательной ошибки.
Условное распределение на новых точках даёт предсказание и доверительные интервалы.

Формула предсказания:
$\bar f_* = K_{X}(K_{XX}+\sigma_n^2 I)^{-1} y$
$\text{cov}(f_) = K_{**} - K_{X}(K_{XX}+\sigma_n^2 I)^{-1} K_{X}$.

Интерактив показывает, как добавление точек уменьшает неопределённость.

Обучение гиперпараметров

Маржинальное правдоподобие
$\log p(y|X) = -\tfrac12 y^T(K+\sigma_n^2 I)^{-1}y - \tfrac12\log|K+\sigma_n^2 I| - \tfrac n2 \log 2\pi$
максимизируется по $\ell,\sigma,\sigma_n$ через градиентный спуск. Интерактив демонстрирует поверхность лог-правдоподобия и оптимум.

Дополнения

Нетривиальные ядра: суммы и произведения базовых (например, тренд + сезонность).
Стохастические процессы: ГП можно рассматривать как случайные функции, что полезно для байесовской оптимизации.
Сложности: $O(n^3)$ по числу точек; для больших данных применяют разреженные или приближённые методы.

Итог

Гауссовские процессы превращают маленькие математические блоки в мощный инструмент вероятностного моделирования. Надеемся, что интерактивные примеры помогли увидеть, как работает этот метод и как его настроить под свои данные.

by vinhnx • 16 августа 2025 г. в 03:21 • 76 points

Оригинал • HN

#gaussian-processes #probabilistic-modeling #regression #d3.js #visualization #machine-learning #interactive

Комментарии (1)

Пользователь восторгается интерактивной визуализацией и спрашивает, какой инструмент использовался.
Уточнение: авторы применяют шаблон Distillpub и пишут D3.js «вручную».
Это даёт высочайшее качество, но требует огромных усилий и времени.
Поэтому проект давно офлайн — поддерживать такой уровень сложно.
Пользователь надеется, что появится технология, которая упростит создание подобных визуализаций.