Hacker News Digest

Тег: #data-analysis

Постов: 2

Simulating and Visualising the Central Limit Theorem (blog.foletta.net)

Кратко о ЦПТ
Если из любого распределения с конечным средним и дисперсией брать выборки размера n и считать их средние, то при n → ∞ распределение этих средних стремится к нормальному.

Эксперимент
Сгенерировано по 10 000 значений из шести распределений: uniform, normal, binomial, beta, exponential, χ².
Функция take_random_sample_mean() берёт случайную выборку размера 60 и возвращает среднее. Повторено 20 000 раз.

take_random_sample_mean <- function(data, n) {
  slice_sample(data, n = n) |> summarise(across(everything(), list(mean = mean, sd = sd)))
}

Результаты
Гистограммы 20 000 средних показывают, что даже для сильно ненормальных исходных распределений форма распределения средних близка к нормальной.

by gjf • 15 августа 2025 г. в 06:11 • 143 points

ОригиналHN

#statistics#probability#central-limit-theorem#r#data-analysis#visualization#distributions#sampling

Комментарии (55)

  • Обсудили аналог ЦПТ для экстремумов — теорему Фишера–Типпета–Гнеденко (GEV).
  • Подчеркнули важность симуляций для интуитивного понимания ЦПТ и поделились ссылками на визуализации.
  • Отметили, что скорость сходимости к нормальному распределению зависит от исходного распределения (экспоненциальное сходится медленнее).
  • Упомянули обобщения ЦПТ: для распределений без конечной дисперсии, ряды Эджворта, устойчивые распределения.
  • Предупредили о риске завышенных ожиданий из-за «хорошо ведущих себя» примеров и дали ссылки на литературу.

Let's properly analyze an AI article for once (nibblestew.blogspot.com)

Краткий пересказ на русском

  • Повод: пост CEO GitHub «Developers reinvented» и его кликбейтные репосты. Автор называет текст образцом плохого мышления и «антиучебником» научного стиля.

  • Отступление о статистике СССР
    – Публиковали только проценты роста, скрывая абсолютные цифры.
    – Сравнивали с провальным 1913 г. вместо более поздних лет.
    – Для «лидерства» в производстве пшеницы измеряли «сырой вес», включая солому, грязь и «диссидентов».

  • Картинка в посте
    Детские кубики парят в воздухе, игнорируя гравитацию. Вывод: автор либо технически безграмотен, либо наплевать на правду. Плюс использование «абоминации»-генератора Studio Ghibli.

  • «Исследование» из твита
    – «Полевое исследование» на 22 человек.
    – Статистическая репрезентативность нулевая; дальнейший разбор оборвался на этом.

by pabs3 • 09 августа 2025 г. в 02:30 • 186 points

ОригиналHN

#github#statistics#data-analysis#marketing#llm#software-development

Комментарии (121)

  • Критика статьи Домке сводится к тому, что она искажает реальность CS-образования и использует сомнительную статистику (выборка 22 человека).
  • Основная претензия: статья — маркетинг для бизнес-аудитории, а не аргумент для разработчиков.
  • Участники подчеркивают, что «AI-бустеризм» ставит «правдоподобие» выше корректности и игнорирует фундаментальные знания.
  • Процитируют Миядзаки: его слова про «оскорбление жизни» вырваны из контекста AI-анимации зомби.
  • Сообщество видит в статье типичный пример «FOMO-капитализма»: лозунги ради инвестиций и роста акций, а не ради качества кода.