Hacker News Digest

Тег: #bayesian-statistics

Постов: 2

Bayesian Data Analysis, Third edition (2013) [pdf] (sites.stat.columbia.edu) 🔥 Горячее

by ibobev • 28 сентября 2025 г. в 17:23 • 303 points

ОригиналHN

#bayesian-statistics#hierarchical-modeling#data-analysis#statistics#probability-theory

Комментарии (61)

  • Книга "Bayesian Data Analysis" Эндрю Гельмана высоко оценивается как фундаментальный труд по байесовской статистике и иерархическому моделированию, полезный для глубокого изучения темы.
  • Участники обсуждают альтернативные ресурсы для изучения темы, такие как "Statistical Rethinking" (более доступный для начинающих), "Doing Bayesian Data Analysis" и "Probability Theory" Джейнса, а также онлайн-курсы и блоги.
  • Поднимается вопрос о практической пользе и актуальности байесовских методов в эпоху больших данных и foundation models, с выводом, что они остаются фундаментальными для задач с ограниченными данными и оценки неопределённости.
  • Отмечается, что книга предназначена для продвинутой аудитории (например, аспирантов), и для её понимания может потребоваться база в математической статистике.
  • Инженеры на местах часто не спешат осваивать байесовские методы, несмотря на их элегантность и практическую пользу для решения конкретных задач, таких как определение размера выборки.

Everything is correlated (2014–23) (gwern.net)

Всё коррелировано

В реальных данных почти все переменные связаны между собой, и корреляции не исчезают при росте выборки. Это ставит под сомнение стандартное нулевое гипотезное тестирование: при достаточном объёме данных нулевая гипотеза всегда отвергается, а отказ от отвержения лишь говорит о нехватке данных. Даже направленный эффект подтверждает теорию лишь на 50 % — как случайное угадывание.

Исторические заметки

  • 1904 — «Student» (Госсет) замечает, что в биометрии всё связано.
  • 1920 — Торндайк формулирует «всё связано со всем».
  • 1938–39 — Берксон и Торндайк подтверждают: корреляции не случайны.
  • 1950-е — Гуд, Сэвидж, Фишер обсуждают «всё-равно-ложную» нулевую.
  • 1960-е — Наннали, Бакан, Мил указывают на бессмысленность p > 0.05.
  • 1976 — Лёлин и Николс: в исследовании 850 близнецов 90 % пар переменных коррелированы.
  • 1990-е — Мил: «фактор грязи» (crud factor) делает большинство «подтверждений» иллюзорными.
  • 2000-е — Уоллер, Килгарриф, Старбак повторяют: «всё коррелировано» в психометрике, лингвистике, экономике.
  • 2013–2023 — Гельман, Лин, Киркегорд, Шен, Гордон, Дауни: эмпирические датасеты подтверждают закономерность.

Практические выводы

  • Любая теория предсказывает не только наличие, но и размер эффекта; без него подтверждение тривиально.
  • «Спарсность» (редкие ненулевые связи) в соцнауках — миф.
  • Вместо p-value нужны байесовские оценки и априорные модели размера эффекта.

by gmays • 22 августа 2025 г. в 02:05 • 243 points

ОригиналHN

#statistics#data-analysis#correlation#hypothesis-testing#p-value#bayesian-statistics#effect-size#causality

Комментарии (107)

  • Статистическая значимость ≠ практическая важность: p-value лишь показывает, насколько «хорошо» измерена разница, но не её смысл.
  • Многие наблюдаемые корреляции — «фоновый шум» данных; без эксперимента или теории они бесполезны.
  • Большие N и множественные проверки порождают ложные значимости, особенно если гипотезы формулируются постфактум.
  • Критика статьи: смесь верных статистических замечаний с политическими спекуляциями и отсутствием практических рекомендаций.
  • Вывод: нужны эффект-размер, каузальные методы и заранее заданные гипотезы, а не охота на p < 0.05.