Hacker News Digest

22 августа 2025 г. в 02:05 • gwern.net • ⭐ 243 • 💬 107

OriginalHN

#statistics#data-analysis#correlation#hypothesis-testing#p-value#bayesian-statistics#effect-size#causality

Everything is correlated (2014–23)

Всё коррелировано

В реальных данных почти все переменные связаны между собой, и корреляции не исчезают при росте выборки. Это ставит под сомнение стандартное нулевое гипотезное тестирование: при достаточном объёме данных нулевая гипотеза всегда отвергается, а отказ от отвержения лишь говорит о нехватке данных. Даже направленный эффект подтверждает теорию лишь на 50 % — как случайное угадывание.

Исторические заметки

  • 1904 — «Student» (Госсет) замечает, что в биометрии всё связано.
  • 1920 — Торндайк формулирует «всё связано со всем».
  • 1938–39 — Берксон и Торндайк подтверждают: корреляции не случайны.
  • 1950-е — Гуд, Сэвидж, Фишер обсуждают «всё-равно-ложную» нулевую.
  • 1960-е — Наннали, Бакан, Мил указывают на бессмысленность p > 0.05.
  • 1976 — Лёлин и Николс: в исследовании 850 близнецов 90 % пар переменных коррелированы.
  • 1990-е — Мил: «фактор грязи» (crud factor) делает большинство «подтверждений» иллюзорными.
  • 2000-е — Уоллер, Килгарриф, Старбак повторяют: «всё коррелировано» в психометрике, лингвистике, экономике.
  • 2013–2023 — Гельман, Лин, Киркегорд, Шен, Гордон, Дауни: эмпирические датасеты подтверждают закономерность.

Практические выводы

  • Любая теория предсказывает не только наличие, но и размер эффекта; без него подтверждение тривиально.
  • «Спарсность» (редкие ненулевые связи) в соцнауках — миф.
  • Вместо p-value нужны байесовские оценки и априорные модели размера эффекта.