Simulating and Visualising the Central Limit Theorem
Кратко о ЦПТ
Если из любого распределения с конечным средним и дисперсией брать выборки размера n и считать их средние, то при n → ∞ распределение этих средних стремится к нормальному.
Эксперимент
Сгенерировано по 10 000 значений из шести распределений: uniform, normal, binomial, beta, exponential, χ².
Функция take_random_sample_mean()
берёт случайную выборку размера 60 и возвращает среднее. Повторено 20 000 раз.
take_random_sample_mean <- function(data, n) {
slice_sample(data, n = n) |> summarise(across(everything(), list(mean = mean, sd = sd)))
}
Результаты
Гистограммы 20 000 средних показывают, что даже для сильно ненормальных исходных распределений форма распределения средних близка к нормальной.
Комментарии (55)
- Обсудили аналог ЦПТ для экстремумов — теорему Фишера–Типпета–Гнеденко (GEV).
- Подчеркнули важность симуляций для интуитивного понимания ЦПТ и поделились ссылками на визуализации.
- Отметили, что скорость сходимости к нормальному распределению зависит от исходного распределения (экспоненциальное сходится медленнее).
- Упомянули обобщения ЦПТ: для распределений без конечной дисперсии, ряды Эджворта, устойчивые распределения.
- Предупредили о риске завышенных ожиданий из-за «хорошо ведущих себя» примеров и дали ссылки на литературу.