Hacker News Digest

Тег: #statistics

Постов: 14

Bayesian Data Analysis, Third edition (2013) [pdf] (sites.stat.columbia.edu) 🔥 Горячее

by ibobev • 28 сентября 2025 г. в 17:23 • 303 points

ОригиналHN

#bayesian-statistics#hierarchical-modeling#data-analysis#statistics#probability-theory

Комментарии (61)

  • Книга "Bayesian Data Analysis" Эндрю Гельмана высоко оценивается как фундаментальный труд по байесовской статистике и иерархическому моделированию, полезный для глубокого изучения темы.
  • Участники обсуждают альтернативные ресурсы для изучения темы, такие как "Statistical Rethinking" (более доступный для начинающих), "Doing Bayesian Data Analysis" и "Probability Theory" Джейнса, а также онлайн-курсы и блоги.
  • Поднимается вопрос о практической пользе и актуальности байесовских методов в эпоху больших данных и foundation models, с выводом, что они остаются фундаментальными для задач с ограниченными данными и оценки неопределённости.
  • Отмечается, что книга предназначена для продвинутой аудитории (например, аспирантов), и для её понимания может потребоваться база в математической статистике.
  • Инженеры на местах часто не спешат осваивать байесовские методы, несмотря на их элегантность и практическую пользу для решения конкретных задач, таких как определение размера выборки.

R MCP Server (github.com)

Разработан сервер RMCP для взаимодействия с моделями через стандартизированный протокол MCP (Model Context Protocol). Это позволяет инструментам разработки, таким как редакторы кода и IDE, безопасно подключаться к ИИ-моделям и получать от них данные, контекст и исполняемые команды.

Сервер обеспечивает стандартизированный интерфейс для запросов к моделям, упрощая интеграцию ИИ в рабочие процессы разработки. Подход повышает безопасность и контролируемость, отделяя инструменты от конкретных реализаций моделей.

by neehao • 17 сентября 2025 г. в 00:18 • 93 points

ОригиналHN

#r#mcp#llm#data-analysis#statistics#github

Комментарии (13)

  • Обсуждение выражает скептицизм по поводу способности инструмента преодолеть фундаментальные проблемы анализа данных, такие как смещения в данных и ошибки в построении выборок.
  • Участники отмечают существование альтернативных решений (пакет mcptools) и задаются вопросом о целесообразности разработки именно этого проекта.
  • Высказываются опасения, что автоматизация статистического анализа с помощью ИИ усугубит проблемы p-хакерства и приведет к потоку некачественных исследований.
  • Поднимается вопрос о практической необходимости сервера для R, учитывая, что современные ИИ (например, GPT-5) уже могут использовать Python для вычислений.
  • Отмечается, что инструмент не защищает пользователей от статистической безграмотности и не заменяет критического мышления и понимания процесса сбора данных.

If all the world were a monorepo (jtibs.substack.com) 🔥 Горячее

by sebg • 16 сентября 2025 г. в 08:33 • 255 points

ОригиналHN

#r#cran#monorepo#dependency-management#backward-compatibility#python#npm#api-versioning#containerization#statistics

Комментарии (69)

  • Обсуждаются строгие правила CRAN для R-пакетов, требующие обратной совместимости и тестирования всех зависимых пакетов при обновлении, что сравнивают с монорепозиторием.
  • Поднимаются проблемы других экосистем (Python, npm), где распространены ломающие изменения и конфликты зависимостей, и отмечается стабильность R.
  • Участники спорят о практичности подхода CRAN: одни видят в нём бремя для разработчиков, другие — выгоду для научной воспроизводимости и пользователей.
  • Предлагаются альтернативы и обходные пути, такие как полное форкирование, версионирование API или контейнеризация.
  • Отмечается уникальная философия R-сообщества, ориентированная на статистиков, а не на разработчиков, что объясняет такие жёсткие требования.

How to become a pure mathematician or statistician (2008) (hbpms.blogspot.com)

План самообразования математика-чистяка (или статистика)

Этап 1

  • школьная база
  • дискретка, алгебра, анализ начального уровня

Этап 2

  • линейная алгебра
  • высшая алгебра
  • вещественный и комплексный анализ
  • диффуры, вероятность и статистика

Этап 3

  • анализ, абстрактная алгебра, теория чисел
  • топология, диффгеометрия
  • по желанию: моделирование, статвывод, стохастика, вычислительная статистика

Этап 4

  • фундамент: логика, множества, комбинаторика, криптография
  • анализ: функциональный, мера, гармонический
  • алгебра: группы, кольца, поля, гомологии
  • числа: алгебраическая и аналитическая теория, эллиптические кривые
  • геометрия и топология: алгебраическая, риманова, K-теория
  • опционально: диффуры в частных, матфизика, вероятность на мере, многомерная статистика, байес, выживание, data mining

Этап 5

  • читаем монографии и статьи, выбираем специализацию, делаем исследования

«Как пианист: сначала скучные этюды, потом — музыка» (Терри Тао).

by ipnon • 09 сентября 2025 г. в 07:10 • 77 points

ОригиналHN

#mathematics#statistics#linear-algebra#abstract-algebra#calculus#probability#topology#number-theory#data-mining

Комментарии (74)

  • Классические «дорожные карты» по чистой математике часто выглядят как бесполезные списки книг без объяснения, зачем и в каком порядке их читать.
  • Настоящий путь проще: крепкая линейная алгебра и анализ (Шилов, Рудин), дальше — основные учебники по геометрии, алгебре и анализу с доказательствами и наставником.
  • Единственный способ стать математиком — публиковать исследования; маршрут любой, лишь бы вам было интересно и вы могли его пройти.
  • Споры о «требуемом IQ 145» вызывают бурю критики: IQ не определяет креативность и усердие, а SAT/ACT лишь коррелируют с успехом, но не гарантируют его.
  • Проверять стоит не коэффициент интеллекта, а свои реальные успехи в математике: умеете ли вы читать и писать доказательства, получаете ли удовольствие от процесса.

Anscombe's Quartet (en.wikipedia.org)

Квартет Энскомба — четыре набора точек (x, y), у которых:

  • средние и дисперсии x, y почти одинаковы;
  • коэффициенты корреляции и регрессии совпадают;
  • но визуально графики радикально различаются.
Набор Особенность
I линейная зависимость
II нелинейная
III один выброс
IV выброс по x

Вывод: цифры без графика могут ввести в заблуждение.

by gidellav • 08 сентября 2025 г. в 09:29 • 115 points

ОригиналHN

#data-visualization#statistics#data-analysis#data-science#scatter-plot#regression-analysis#data-interpretation#outliers#skewness#simpsons-paradox

Комментарии (25)

  • Обсуждение началось с Data-morph и «датазавра» — генерализированного датасета, где можно задать любую форму точек.
  • Упомянули Anscombe’s Quartet: 4 набора с одинаковыми summary-stats, но разной визуальной структурой; его используют, чтобы показать важность визуализации и парадокс Симпсона.
  • Участники подчёркивают: без графиков (scatter, hist, boxplot) можно упустить выбросы, кластеры и скрытые закономерности; цифры не заменят «глаз».
  • Некоторые спрашивают, могут ли skewness, p99 или другие метрики всё-таки различать квартет; мнения расходятся — визуализация остаётся быстрейшим способом.
  • Практический вывод: сначала смотрим, потом считаем; в многомерных данных это особенно критично, потому что «увидеть» уже сложнее.

A Random Walk in 10 Dimensions (2021) (galileo-unbound.blog)

Случайное блуждание в 10 измерениях

Представьте точку, скачущую в 10-мерном пространстве: каждый шаг — равновероятный сдвиг по любой из координат. В одномерном случае расстояние от начала растёт как √n, где n — число шагов. В d измерениях это правило превращается в √(n·d): «объём» доступного пространства растёт, но каждая координата всё ещё дрожит независимо.

Интуиция подсказывает, что в 10D точка должна «улететь» далеко, однако симуляция показывает иное: медианное расстояние после 1000 шагов — всего ≈10 единиц. Почему? Плотность вероятности в высоких размерностях концентрируется в тонкой оболочке гиперсферы; случайные векторы почти ортогональны, и их длины редко бывают экстремальными.

Этот эффект лежит в основе многих задач: от статистической механики до машинного обучения, где «проклятие размерности» заставляет методы искать структуру в разреженных данных.

by just_human • 03 сентября 2025 г. в 15:20 • 116 points

ОригиналHN

#mathematics#statistics#machine-learning#random-walks#dimensionality#gradient-descent#stochastic-gradient-descent#hamiltonian-monte-carlo#curse-of-dimensionality

Комментарии (16)

  • В высоких размерностях случайное блуждание почти вся «растягивается» вдоль первых двух главных компонент (>80 % дисперсии), что противоречит интуиции.
  • Уточнили модель шага: выбирается одно из 10 измерений (вер. 1/10), затем направление ±1 (вер. ½), т.е. 20 возможных переходов.
  • Ошиблись в расчёте «горных пиков» в 10-D решётке: правильная вероятность ≈ 2 %, а не 18 %.
  • Обсудили, почему такие эффекты делают глубокое обучение возможным: случайные блуждания по ландшафту потерь помогают вместе с градиентным спуском.
  • Упомянули связанные методы (SGD, Hamiltonian MCMC) и классическую теорему Пойа: в 1-2-D блуждание возвращается, в ≥3-D может «потеряться навсегда».

Important machine learning equations (chizkidd.github.io) 🔥 Горячее

Байес

$$P(A|B)=\frac{P(B|A)P(A)}{P(B)}$$ Обновляем вероятность гипотезы при новых данных.

def bayes(p_d, p_t_d, p_t_nd):
    p_t = p_t_d*p_d + p_t_nd*(1-p_d)
    return p_t_d*p_d / p_t

Энтропия

$$H(X)=-\sum_x P(x)\log P(x)$$ Измеряем неопределённость распределения.

import numpy as np
H = lambda p: -np.sum(p*np.log(p, where=p>0))

KL-дивергенция

$$D_{\text{KL}}(P|Q)=\sum_x P(x)\log\frac{P(x)}{Q(x)}$$ Сколько бит «лишних» нужно, если вместо истинного распределения $P$ использовать $Q$.

Кросс-энтропия

$$H(P,Q)=-\sum_x P(x)\log Q(x)$$ Используется как лосс в классификации.

Линейная алгебра

Линейное преобразование

$$\mathbf{y}=A\mathbf{x}$$ Матрица $A$ переводит вектор $\mathbf{x}$ в пространство признаков.

Собственные значения и векторы

$$A\mathbf{v}=\lambda\mathbf{v}$$ Направления, вдоль которых преобразование лишь растягивает/сжимает.

SVD

$$A=U\Sigma V^\top$$ Разложение на ортогональные и диагональные матрицы; основа PCA и рекомендательных систем.

Оптимизация

Градиентный спуск

$$\theta_{t+1}=\theta_t-\eta\nabla_\theta J(\theta)$$ Шагаем против градиента, чтобы минимизировать функцию потерь $J$.

Backprop

$$\frac{\partial L}{\partial W^{(l)}}=\delta^{(l)}(a^{(l-1)})^\top$$ Цепное правило для обучения нейросетей.

Функции потерь

MSE

$$\text{MSE}=\frac{1}{n}\sum_i (y_i-\hat y_i)^2$$ Классика регрессии.

Кросс-энтропия

$$L=-\sum_i y_i\log \hat y_i$$ Стандарт для классификации.

Продвинутые темы

Диффузия

$$q(x_t|x_{t-1})=\mathcal N(x_t;\sqrt{1-\beta_t}x_{t-1},\beta_t I)$$ Постепенное добавление шума и обратное восстановление.

Свертка

$$(f*g)[n]=\sum_m f[m]g[n-m]$$ Извлечение локальных паттернов в CNN.

Softmax

$$\text{softmax}(z_i)=\frac{e^{z_i}}{\sum_j e^{z_j}}$$ Превращает логиты в вероятности.

Attention

$$\text{Attention}(Q,K,V)=\text{softmax}\left(\frac{QK^\top}{\sqrt d_k}\right)V$$ Взвешенная сумма значений по релевантности запроса и ключей.


Краткий конспект ключевых уравнений ML: от вероятностей до трансформеров, с кодом и интуицией.

by sebg • 28 августа 2025 г. в 11:38 • 265 points

ОригиналHN

#machine-learning#python#numpy#linear-algebra#optimization#deep-learning#probability#statistics#transformers#convolutional-neural-networks

Комментарии (26)

  • @dkislyuk и @morleytj критикуют формат «списка формул» без связного объяснения и советуют читать оригинальную теорию Шеннона.
  • @cl3misch нашёл баг в коде энтропии из-за неинициализированных значений и несоответствие формулы кросс-энтропии.
  • @dawnofdusk и @cgadski хвалят полноту материала как удобную шпаргалку для быстрого погружения.
  • @bee_rider и @calebkaiser обсуждают применение сингулярных чисел и собственных значений в LLM и LoRA.

Everything is correlated (2014–23) (gwern.net)

Всё коррелировано

В реальных данных почти все переменные связаны между собой, и корреляции не исчезают при росте выборки. Это ставит под сомнение стандартное нулевое гипотезное тестирование: при достаточном объёме данных нулевая гипотеза всегда отвергается, а отказ от отвержения лишь говорит о нехватке данных. Даже направленный эффект подтверждает теорию лишь на 50 % — как случайное угадывание.

Исторические заметки

  • 1904 — «Student» (Госсет) замечает, что в биометрии всё связано.
  • 1920 — Торндайк формулирует «всё связано со всем».
  • 1938–39 — Берксон и Торндайк подтверждают: корреляции не случайны.
  • 1950-е — Гуд, Сэвидж, Фишер обсуждают «всё-равно-ложную» нулевую.
  • 1960-е — Наннали, Бакан, Мил указывают на бессмысленность p > 0.05.
  • 1976 — Лёлин и Николс: в исследовании 850 близнецов 90 % пар переменных коррелированы.
  • 1990-е — Мил: «фактор грязи» (crud factor) делает большинство «подтверждений» иллюзорными.
  • 2000-е — Уоллер, Килгарриф, Старбак повторяют: «всё коррелировано» в психометрике, лингвистике, экономике.
  • 2013–2023 — Гельман, Лин, Киркегорд, Шен, Гордон, Дауни: эмпирические датасеты подтверждают закономерность.

Практические выводы

  • Любая теория предсказывает не только наличие, но и размер эффекта; без него подтверждение тривиально.
  • «Спарсность» (редкие ненулевые связи) в соцнауках — миф.
  • Вместо p-value нужны байесовские оценки и априорные модели размера эффекта.

by gmays • 22 августа 2025 г. в 02:05 • 243 points

ОригиналHN

#statistics#data-analysis#correlation#hypothesis-testing#p-value#bayesian-statistics#effect-size#causality

Комментарии (107)

  • Статистическая значимость ≠ практическая важность: p-value лишь показывает, насколько «хорошо» измерена разница, но не её смысл.
  • Многие наблюдаемые корреляции — «фоновый шум» данных; без эксперимента или теории они бесполезны.
  • Большие N и множественные проверки порождают ложные значимости, особенно если гипотезы формулируются постфактум.
  • Критика статьи: смесь верных статистических замечаний с политическими спекуляциями и отсутствием практических рекомендаций.
  • Вывод: нужны эффект-размер, каузальные методы и заранее заданные гипотезы, а не охота на p < 0.05.

Review of Anti-Aging Drugs (scienceblog.com)

Ключевые выводы DrugAge

  • Влияние препаратов на долгожительство у мышей почти не коррелирует с результатами на червях и мухах (r = 0,28).
  • Лучшие вещества продлевают жизнь мышей лишь на 10–20 %. Автор считает, что это предел «встроенной» гибкости программы старения; человеку можно надеяться максимум на +10 лет.
  • Настоящий прорыв возможен только при взломе сигнальных путей, например, с помощью экзосом.

Таблица лидеров (только млекопитающие)

Вещество Исслед. (N) % прироста
Витамин C 1 (24) 19,6
Симвастатин 1 (682) 19,0
Маточное молочко 1 (22) 17,9
SKQ 1 (50) 15,1
Эпиталамин 2 (171) 14,9
Таурин 1 (122) 14,5
Пантотенат кальция 1 (74) 12,6
Витамин E 1 (47) 12,5
N-ацетилцистеин 1 (32) 12,3
Фенформин 1 (54) 11,6

Остальные (берберин, эстрадиол, EGCG, мелатонин, спермидин, рапамицин, куркумин и др.) дают прирост ≤ 11 %. Аспирин и метформин показали всего 1–3 %.

Комментарии по лидерам

  • Витамин C: единственное исследование 1985 г., цифра 19,6 % выглядит завышенной.
  • Симвастатин: статистически значимый, но эффект основан на одном большом опыте.
  • Маточное молочко и SKQ: данные слабые (N ≈ 20–50).
  • Эпиталамин и таурин: пока без подтверждения в независимых сериях.

Итог
Все перечисленные средства лишь «подталкивают» организм к верхней границе генетически заданного диапазона. Радикальное увеличение продолжительности потребует принципиально новых подходов вроди экзосомной терапии.

by XzetaU8 • 17 августа 2025 г. в 17:22 • 128 points

ОригиналHN

#biology#medicine#health#aging#drugs#research#vitamins#statistics

Комментарии (96)

  • Основной вывод: никакие добавки и «анти-эйдж» препараты не заменяют проверенные факторы — не курить, быть стройным, двигаться, спать и контролировать давление/холестерин.
  • Почти все обсуждаемые вещества (метформин, рапамицин, NAC, таурин и др.) имеют слабые или противоречивые человеческие данные, часто переносятся из мышей с ошибками дозировки.
  • Даже если препарат продлевает жизнь, ключевой вопрос — сохранит ли он здоровье и качество жизни, а не просто добавит года в старческой немощи.
  • Без учёта индивидуальной генетики и личных факторов риска универсальных «таблеток молодости» не существует.
  • Диета и физическая активность остаются «королями» профилактики; остальное — эксперимент с неизвестным балансом пользы и риска.

Simulating and Visualising the Central Limit Theorem (blog.foletta.net)

Кратко о ЦПТ
Если из любого распределения с конечным средним и дисперсией брать выборки размера n и считать их средние, то при n → ∞ распределение этих средних стремится к нормальному.

Эксперимент
Сгенерировано по 10 000 значений из шести распределений: uniform, normal, binomial, beta, exponential, χ².
Функция take_random_sample_mean() берёт случайную выборку размера 60 и возвращает среднее. Повторено 20 000 раз.

take_random_sample_mean <- function(data, n) {
  slice_sample(data, n = n) |> summarise(across(everything(), list(mean = mean, sd = sd)))
}

Результаты
Гистограммы 20 000 средних показывают, что даже для сильно ненормальных исходных распределений форма распределения средних близка к нормальной.

by gjf • 15 августа 2025 г. в 06:11 • 143 points

ОригиналHN

#statistics#probability#central-limit-theorem#r#data-analysis#visualization#distributions#sampling

Комментарии (55)

  • Обсудили аналог ЦПТ для экстремумов — теорему Фишера–Типпета–Гнеденко (GEV).
  • Подчеркнули важность симуляций для интуитивного понимания ЦПТ и поделились ссылками на визуализации.
  • Отметили, что скорость сходимости к нормальному распределению зависит от исходного распределения (экспоненциальное сходится медленнее).
  • Упомянули обобщения ЦПТ: для распределений без конечной дисперсии, ряды Эджворта, устойчивые распределения.
  • Предупредили о риске завышенных ожиданий из-за «хорошо ведущих себя» примеров и дали ссылки на литературу.

Did California's fast food minimum wage reduce employment? (nber.org) 💬 Длинная дискуссия

  • Контекст: с 1 апреля 2024 г. в Калифорнии для крупных сетей фаст-фуда введён минимальный часовой оклад 20 $ (+25 % к прежнему уровню).
  • Методика: авторы сравнивают динамику занятости и зарплат в заведениях, подпавших под закон (≥60 точек), с контрольной группой (меньше 60 точек или рестораны полного сервиса), используя данные BLS и QCEW.
  • Результаты:
    • Занятость в «законных» фаст-фудах снизилась на 4,8 % (≈ 6 тыс. рабочих мест).
    • Средняя зарплата выросла на 11 %, но совокупный доход сотрудников упал на 2,8 %.
    • Цены выросли на 6–7 %; доля закрывшихся заведений увеличилась на 1,3 п.п.
  • Вывод: рост оплаты привёл к сокращению занятости и доходов работников, а также к росту цен для потребителей.

by lxm • 09 августа 2025 г. в 09:54 • 184 points

ОригиналHN

#minimum-wage#employment#economics#statistics#bls#qcew

Комментарии (430)

  • Данные FRED показывают: после COVID занятость в полноценных ресторанах Калифорнии так и не вернулась к докризисному уровню и начала снижаться с середины 2023 г.
  • Участники спорят: потеря ~20 тыс. рабочих мест — ли цена за рост зарплат на 25 %, ли следствие автоматизации и «роботизации» точек без залов.
  • Критика минималки: «если ценность работника < $20/час, его не берут»; забывают, что выше зарплата ⇒ меньше текучести и скрытых издержек.
  • Идеологический раскол: одни считают любую работу без «живой» зарплаты «полурабством», другие — что бизнес-модель, не способная платить living wage, должна исчезнуть.
  • Несколько голосов: сдвиг работников в гиг-экономику, рост производительности (меньше людей — тот же объём), возможное сокращение подработок подростков.

Let's properly analyze an AI article for once (nibblestew.blogspot.com)

Краткий пересказ на русском

  • Повод: пост CEO GitHub «Developers reinvented» и его кликбейтные репосты. Автор называет текст образцом плохого мышления и «антиучебником» научного стиля.

  • Отступление о статистике СССР
    – Публиковали только проценты роста, скрывая абсолютные цифры.
    – Сравнивали с провальным 1913 г. вместо более поздних лет.
    – Для «лидерства» в производстве пшеницы измеряли «сырой вес», включая солому, грязь и «диссидентов».

  • Картинка в посте
    Детские кубики парят в воздухе, игнорируя гравитацию. Вывод: автор либо технически безграмотен, либо наплевать на правду. Плюс использование «абоминации»-генератора Studio Ghibli.

  • «Исследование» из твита
    – «Полевое исследование» на 22 человек.
    – Статистическая репрезентативность нулевая; дальнейший разбор оборвался на этом.

by pabs3 • 09 августа 2025 г. в 02:30 • 186 points

ОригиналHN

#github#statistics#data-analysis#marketing#llm#software-development

Комментарии (121)

  • Критика статьи Домке сводится к тому, что она искажает реальность CS-образования и использует сомнительную статистику (выборка 22 человека).
  • Основная претензия: статья — маркетинг для бизнес-аудитории, а не аргумент для разработчиков.
  • Участники подчеркивают, что «AI-бустеризм» ставит «правдоподобие» выше корректности и игнорирует фундаментальные знания.
  • Процитируют Миядзаки: его слова про «оскорбление жизни» вырваны из контекста AI-анимации зомби.
  • Сообщество видит в статье типичный пример «FOMO-капитализма»: лозунги ради инвестиций и роста акций, а не ради качества кода.

Vibechart (vibechart.net) 🔥 Горячее 💬 Длинная дискуссия

vibechart — график, строящийся не по фактам, а по желаемому. Игнорирует истину, красоту и пользу. См. «ложь», «наглая ложь» и «статистика».

by datadrivenangel • 07 августа 2025 г. в 21:36 • 805 points

ОригиналHN

#openai#data-visualization#statistics

Комментарии (178)

  • Пользователи заметили, что в презентации GPT-5 графики сравнения моделей содержат явные ошибки: колонки 69,1 и 30,8 одинаковой высоты, а 50,0 выглядит меньше 47,4.
  • Мнения разделились: одни считают это обычной невнимательностью или досадной ошибкой верстки, другие — сознательным искажением, чтобы преувеличить преимущество новой модели.
  • Некоторые шутят, что «vibe-coding» и автоматизированная генерация графиков привели к провалу, а OpenAI, несмотря на миллиардные инвестиции, не может нанять специалиста по визуализации данных.
  • Несколько комментаторов предполагают, что эпичный «фейл» мог быть специально подан для вирального обсуждения и дополнительного хайпа.
  • В официальном пресс-релизе ошибки уже исправлены, но общее впечатление осталось: «эпоха AI-хайпа в одной картинке».

Monte Carlo Crash Course: Quasi-Monte Carlo (thenumb.at)

Monte Carlo Crash Course

  • Непрерывные распределения вероятностей
  • Экспоненциально лучшая интеграция
  • Сэмплинг
  • Кейс: рендеринг
  • Quasi-Monte Carlo
  • Скоро…

Мы уже определили и применили интеграцию Монте‑Карло — по сути, это единственный необходимый инструмент. Далее рассмотрим способы снижать дисперсию и эффективно сэмплировать сложные распределения.

  • Дисперсия и корреляция
  • Стратифицированный сэмплинг
  • Адаптивный сэмплинг
  • Латинский гиперкуб
  • Quasi‑Monte Carlo
  • Последовательности с низкой несоответственностью

Дисперсия и корреляция

Во второй главе мы увидели: дисперсия оценщика Монте‑Карло обратно пропорциональна числу выборок, а ожидаемая ошибка масштабируется как 1/√N в любом измерении. Это намного лучше экспоненциальной зависимости, но для очень высокой точности 1/√N всё ещё может быть недостаточно быстро; на практике N можно увеличивать лишь ограниченно.

Мы также предполагали независимость выборок, чтобы дисперсии складывались. Однако несмещённость интеграции Монте‑Карло не требовала независимости. Если выборки отрицательно коррелированы, ковариация < 0, дисперсия суммы снижается, и сходимость может быть быстрее 1/√N.

Poisson Disk Sampling

Перцептивно отрицательно коррелированные точки выглядят «более случайными»: независимые образуют кластеры и оставляют пробелы; отрицательная корреляция делает обратное — плотные области сэмплируются реже. Можно генерировать такие точки отбором с отказами: отбрасывать точки, слишком близкие к уже принятым (Poisson disk sampling). Это удобно для предгенерации с минимальным расстоянием, но плохо подходит для прогрессивных оценок, где нужно со временем покрыть весь домен.

Стратифицированный сэмплинг

Если минимальная дистанция не нужна, быстрее получать отрицательную корреляцию через стратификацию. Идея сочетает сильные стороны квадратур и Монте‑Карло: вместо N независимых точек по всему домену мы делим область на M равных ячеек и берём N/M независимых точек в каждой. Поскольку в ячейке не может быть больше N/M точек, они отрицательно коррелированы.

Рассмотрим оценщик на N стратифицированных выборках. Группировка по регионам переписывает его как сумму независимых оценок по каждой области Ωm, каждая с N/M выборками. По линейности матожидания такой оценщик несмещён: сумма интегралов по поддоменам равна интегралу по всему домену.

На примере с разбиением круга на M=64 областей получаем заметно меньшую ошибку, особенно при малых N. Точный выигрыш зависит от поведения функции f, но можно показать, что стратификация как минимум не увеличивает дисперсию.

Зачем стратифицировать?

Сравним равномерный N-выборочный оценщик по всему Ω с стратифицированным, равномерно сэмплирующим два поддомена A и B. Далее показывается, когда и почему стратификация уменьшает дисперсию за счёт контроля вариации внутри страт и отрицательной корреляции между ними.

by zote • 03 августа 2025 г. в 20:53 • 123 points

ОригиналHN

#monte-carlo#quasi-monte-carlo#sampling#probability-distributions#random-number-generation#statistics

Комментарии (9)

  • Участники отметили, что слабый PRNG и фиксированный seed в Монте-Карло часто полезны: ускоряют расчёты и обеспечивают воспроизводимость для отладки.
  • Однако @clickety_clack возражает: фиксированный seed создаёт иллюзию точности, а менеджеры должны видеть влияние стандартной ошибки.
  • Обсудили, что для 500 акций учесть все ковариации практически невозможно из-за сложности взаимодействий.
  • Спор о скорости CSPRNG: один считает их дорогими, другой приводит пример быстрого алгоритма Randen.
  • Рекомендовали курс Steve Bruntonа как более доступное введение в вероятность и статистику.