Hacker News Digest

Тег: #d3.js

Постов: 1

A Visual Exploration of Gaussian Processes (2019) (distill.pub)

Гауссовские процессы визуально

Гауссовские процессы (ГП) — это вероятностный метод регрессии, который не просто подгоняет кривую, а выдаёт распределение по всем возможным функциям, совместимым с данными. Среднее этого распределения — наилучшее предсказание; дисперсия — мера неопределённости. ГП применимы к регрессии, классификации и кластеризации.

Многомерное нормальное распределение

ГП строятся на многомерной нормальности
$X \sim \mathcal N(\mu,\Sigma)$.

  • $\mu$ — вектор средних.
  • $\Sigma$ — симметричная, положительно полуопределённая ковариационная матрица: диагональ $\sigma_i^2$ задаёт дисперсии, вне-диагональ $\sigma_{ij}$ — корреляции.

Интерактивный пример показывает, как меняется форма плотности при изменении $\mu$ и $\Sigma$.

Маргинализация и условие

У нормального распределения важное свойство:

  • Маргинализация — переход к подмножеству переменных сохраняет нормальность.
  • Условие — распределение переменной при фиксированных других тоже нормально.

Эти операции лежат в основе вывода ГП: наблюдая часть точек, мы получаем нормальное апостериорное распределение на остальных.

От многомерной нормали к ГП

ГП обобщает многомерную нормальность на континуум индексов (например, все точки времени или пространства). Любой конечный набор значений функции имеет совместное нормальное распределение. Задаётся:

  • Средняя функция $m(x)$ (часто $m(x)=0$).
  • Ковариационная функция $k(x,x')$, задающая гладкость и масштаб.

Популярные ядра:

  • RBF (радиальная): $\exp(-\tfrac{|x-x'|^2}{2\ell^2})$ — гладкие функции.
  • Периодическое: $\exp(-\tfrac{2\sin^2(\pi|x-x'|/p)}{\ell^2})$ — повторяющиеся паттерны.
  • Рациональное квадратичное: $(1+\tfrac{|x-x'|^2}{2\alpha\ell^2})^{-\alpha}$ — промежуточная гладкость.

Интерактив позволяет менять гиперпараметры $\ell$ (характерная длина) и $\sigma$ (амплитуда) и видеть, как меняются выборки функций.

Регрессия с ГП

  1. Выбираем ядро и гиперпараметры.
  2. Вычисляем ковариационную матрицу на обучающих точках $K_{XX}$.
  3. Добавляем шум $\sigma_n^2 I$ для учёта наблюдательной ошибки.
  4. Условное распределение на новых точках даёт предсказание и доверительные интервалы.

Формула предсказания:
$\bar f_* = K_{X}(K_{XX}+\sigma_n^2 I)^{-1} y$
$\text{cov}(f_
) = K_{**} - K_{X}(K_{XX}+\sigma_n^2 I)^{-1} K_{X}$.

Интерактив показывает, как добавление точек уменьшает неопределённость.

Обучение гиперпараметров

Маржинальное правдоподобие
$\log p(y|X) = -\tfrac12 y^T(K+\sigma_n^2 I)^{-1}y - \tfrac12\log|K+\sigma_n^2 I| - \tfrac n2 \log 2\pi$
максимизируется по $\ell,\sigma,\sigma_n$ через градиентный спуск. Интерактив демонстрирует поверхность лог-правдоподобия и оптимум.

Дополнения

  • Нетривиальные ядра: суммы и произведения базовых (например, тренд + сезонность).
  • Стохастические процессы: ГП можно рассматривать как случайные функции, что полезно для байесовской оптимизации.
  • Сложности: $O(n^3)$ по числу точек; для больших данных применяют разреженные или приближённые методы.

Итог

Гауссовские процессы превращают маленькие математические блоки в мощный инструмент вероятностного моделирования. Надеемся, что интерактивные примеры помогли увидеть, как работает этот метод и как его настроить под свои данные.

by vinhnx • 16 августа 2025 г. в 03:21 • 76 points

ОригиналHN

#gaussian-processes#probabilistic-modeling#regression#d3.js#visualization#machine-learning#interactive

Комментарии (1)

  • Пользователь восторгается интерактивной визуализацией и спрашивает, какой инструмент использовался.
  • Уточнение: авторы применяют шаблон Distillpub и пишут D3.js «вручную».
  • Это даёт высочайшее качество, но требует огромных усилий и времени.
  • Поэтому проект давно офлайн — поддерживать такой уровень сложно.
  • Пользователь надеется, что появится технология, которая упростит создание подобных визуализаций.