Тег: #bayesian-statistics — Hacker News Digest

Bayesian Data Analysis, Third edition (2013) [pdf] (sites.stat.columbia.edu) 🔥 Горячее

—

by ibobev • 28 сентября 2025 г. в 17:23 • 303 points

Оригинал • HN

#bayesian-statistics #hierarchical-modeling #data-analysis #statistics #probability-theory

Комментарии (61)

Книга "Bayesian Data Analysis" Эндрю Гельмана высоко оценивается как фундаментальный труд по байесовской статистике и иерархическому моделированию, полезный для глубокого изучения темы.
Участники обсуждают альтернативные ресурсы для изучения темы, такие как "Statistical Rethinking" (более доступный для начинающих), "Doing Bayesian Data Analysis" и "Probability Theory" Джейнса, а также онлайн-курсы и блоги.
Поднимается вопрос о практической пользе и актуальности байесовских методов в эпоху больших данных и foundation models, с выводом, что они остаются фундаментальными для задач с ограниченными данными и оценки неопределённости.
Отмечается, что книга предназначена для продвинутой аудитории (например, аспирантов), и для её понимания может потребоваться база в математической статистике.
Инженеры на местах часто не спешат осваивать байесовские методы, несмотря на их элегантность и практическую пользу для решения конкретных задач, таких как определение размера выборки.

Everything is correlated (2014–23) (gwern.net)

Всё коррелировано

В реальных данных почти все переменные связаны между собой, и корреляции не исчезают при росте выборки. Это ставит под сомнение стандартное нулевое гипотезное тестирование: при достаточном объёме данных нулевая гипотеза всегда отвергается, а отказ от отвержения лишь говорит о нехватке данных. Даже направленный эффект подтверждает теорию лишь на 50 % — как случайное угадывание.

Исторические заметки

1904 — «Student» (Госсет) замечает, что в биометрии всё связано.
1920 — Торндайк формулирует «всё связано со всем».
1938–39 — Берксон и Торндайк подтверждают: корреляции не случайны.
1950-е — Гуд, Сэвидж, Фишер обсуждают «всё-равно-ложную» нулевую.
1960-е — Наннали, Бакан, Мил указывают на бессмысленность p > 0.05.
1976 — Лёлин и Николс: в исследовании 850 близнецов 90 % пар переменных коррелированы.
1990-е — Мил: «фактор грязи» (crud factor) делает большинство «подтверждений» иллюзорными.
2000-е — Уоллер, Килгарриф, Старбак повторяют: «всё коррелировано» в психометрике, лингвистике, экономике.
2013–2023 — Гельман, Лин, Киркегорд, Шен, Гордон, Дауни: эмпирические датасеты подтверждают закономерность.

Практические выводы

Любая теория предсказывает не только наличие, но и размер эффекта; без него подтверждение тривиально.
«Спарсность» (редкие ненулевые связи) в соцнауках — миф.
Вместо p-value нужны байесовские оценки и априорные модели размера эффекта.

by gmays • 22 августа 2025 г. в 02:05 • 243 points

Оригинал • HN

#statistics #data-analysis #correlation #hypothesis-testing #p-value #bayesian-statistics #effect-size #causality

Комментарии (107)

Статистическая значимость ≠ практическая важность: p-value лишь показывает, насколько «хорошо» измерена разница, но не её смысл.
Многие наблюдаемые корреляции — «фоновый шум» данных; без эксперимента или теории они бесполезны.
Большие N и множественные проверки порождают ложные значимости, особенно если гипотезы формулируются постфактум.
Критика статьи: смесь верных статистических замечаний с политическими спекуляциями и отсутствием практических рекомендаций.
Вывод: нужны эффект-размер, каузальные методы и заранее заданные гипотезы, а не охота на p < 0.05.