Everything is correlated (2014–23)
Всё коррелировано
В реальных данных почти все переменные связаны между собой, и корреляции не исчезают при росте выборки. Это ставит под сомнение стандартное нулевое гипотезное тестирование: при достаточном объёме данных нулевая гипотеза всегда отвергается, а отказ от отвержения лишь говорит о нехватке данных. Даже направленный эффект подтверждает теорию лишь на 50 % — как случайное угадывание.
Исторические заметки
- 1904 — «Student» (Госсет) замечает, что в биометрии всё связано.
- 1920 — Торндайк формулирует «всё связано со всем».
- 1938–39 — Берксон и Торндайк подтверждают: корреляции не случайны.
- 1950-е — Гуд, Сэвидж, Фишер обсуждают «всё-равно-ложную» нулевую.
- 1960-е — Наннали, Бакан, Мил указывают на бессмысленность p > 0.05.
- 1976 — Лёлин и Николс: в исследовании 850 близнецов 90 % пар переменных коррелированы.
- 1990-е — Мил: «фактор грязи» (crud factor) делает большинство «подтверждений» иллюзорными.
- 2000-е — Уоллер, Килгарриф, Старбак повторяют: «всё коррелировано» в психометрике, лингвистике, экономике.
- 2013–2023 — Гельман, Лин, Киркегорд, Шен, Гордон, Дауни: эмпирические датасеты подтверждают закономерность.
Практические выводы
- Любая теория предсказывает не только наличие, но и размер эффекта; без него подтверждение тривиально.
- «Спарсность» (редкие ненулевые связи) в соцнауках — миф.
- Вместо p-value нужны байесовские оценки и априорные модели размера эффекта.