Тег: #statistics — Hacker News Digest

Simulating and Visualising the Central Limit Theorem (blog.foletta.net)

Кратко о ЦПТ
Если из любого распределения с конечным средним и дисперсией брать выборки размера n и считать их средние, то при n → ∞ распределение этих средних стремится к нормальному.

Эксперимент
Сгенерировано по 10 000 значений из шести распределений: uniform, normal, binomial, beta, exponential, χ².
Функция take_random_sample_mean() берёт случайную выборку размера 60 и возвращает среднее. Повторено 20 000 раз.

take_random_sample_mean <- function(data, n) {
  slice_sample(data, n = n) |> summarise(across(everything(), list(mean = mean, sd = sd)))
}

Результаты
Гистограммы 20 000 средних показывают, что даже для сильно ненормальных исходных распределений форма распределения средних близка к нормальной.

by gjf • 15 августа 2025 г. в 06:11 • 143 points

Оригинал • HN

#statistics #probability #central-limit-theorem #r #data-analysis #visualization #distributions #sampling

Комментарии (55)

Обсудили аналог ЦПТ для экстремумов — теорему Фишера–Типпета–Гнеденко (GEV).
Подчеркнули важность симуляций для интуитивного понимания ЦПТ и поделились ссылками на визуализации.
Отметили, что скорость сходимости к нормальному распределению зависит от исходного распределения (экспоненциальное сходится медленнее).
Упомянули обобщения ЦПТ: для распределений без конечной дисперсии, ряды Эджворта, устойчивые распределения.
Предупредили о риске завышенных ожиданий из-за «хорошо ведущих себя» примеров и дали ссылки на литературу.

Did California's fast food minimum wage reduce employment? (nber.org) 💬 Длинная дискуссия

Контекст: с 1 апреля 2024 г. в Калифорнии для крупных сетей фаст-фуда введён минимальный часовой оклад 20 $ (+25 % к прежнему уровню).
Методика: авторы сравнивают динамику занятости и зарплат в заведениях, подпавших под закон (≥60 точек), с контрольной группой (меньше 60 точек или рестораны полного сервиса), используя данные BLS и QCEW.
Результаты:
- Занятость в «законных» фаст-фудах снизилась на 4,8 % (≈ 6 тыс. рабочих мест).
- Средняя зарплата выросла на 11 %, но совокупный доход сотрудников упал на 2,8 %.
- Цены выросли на 6–7 %; доля закрывшихся заведений увеличилась на 1,3 п.п.
Вывод: рост оплаты привёл к сокращению занятости и доходов работников, а также к росту цен для потребителей.

by lxm • 09 августа 2025 г. в 09:54 • 184 points

Оригинал • HN

#minimum-wage #employment #economics #statistics #bls #qcew

Комментарии (430)

Данные FRED показывают: после COVID занятость в полноценных ресторанах Калифорнии так и не вернулась к докризисному уровню и начала снижаться с середины 2023 г.
Участники спорят: потеря ~20 тыс. рабочих мест — ли цена за рост зарплат на 25 %, ли следствие автоматизации и «роботизации» точек без залов.
Критика минималки: «если ценность работника < $20/час, его не берут»; забывают, что выше зарплата ⇒ меньше текучести и скрытых издержек.
Идеологический раскол: одни считают любую работу без «живой» зарплаты «полурабством», другие — что бизнес-модель, не способная платить living wage, должна исчезнуть.
Несколько голосов: сдвиг работников в гиг-экономику, рост производительности (меньше людей — тот же объём), возможное сокращение подработок подростков.

Let's properly analyze an AI article for once (nibblestew.blogspot.com)

Краткий пересказ на русском

Повод: пост CEO GitHub «Developers reinvented» и его кликбейтные репосты. Автор называет текст образцом плохого мышления и «антиучебником» научного стиля.
Отступление о статистике СССР
– Публиковали только проценты роста, скрывая абсолютные цифры.
– Сравнивали с провальным 1913 г. вместо более поздних лет.
– Для «лидерства» в производстве пшеницы измеряли «сырой вес», включая солому, грязь и «диссидентов».
Картинка в посте
Детские кубики парят в воздухе, игнорируя гравитацию. Вывод: автор либо технически безграмотен, либо наплевать на правду. Плюс использование «абоминации»-генератора Studio Ghibli.
«Исследование» из твита
– «Полевое исследование» на 22 человек.
– Статистическая репрезентативность нулевая; дальнейший разбор оборвался на этом.

by pabs3 • 09 августа 2025 г. в 02:30 • 186 points

Оригинал • HN

#github #statistics #data-analysis #marketing #llm #software-development

Комментарии (121)

Критика статьи Домке сводится к тому, что она искажает реальность CS-образования и использует сомнительную статистику (выборка 22 человека).
Основная претензия: статья — маркетинг для бизнес-аудитории, а не аргумент для разработчиков.
Участники подчеркивают, что «AI-бустеризм» ставит «правдоподобие» выше корректности и игнорирует фундаментальные знания.
Процитируют Миядзаки: его слова про «оскорбление жизни» вырваны из контекста AI-анимации зомби.
Сообщество видит в статье типичный пример «FOMO-капитализма»: лозунги ради инвестиций и роста акций, а не ради качества кода.

Vibechart (vibechart.net) 🔥 Горячее 💬 Длинная дискуссия

vibechart — график, строящийся не по фактам, а по желаемому. Игнорирует истину, красоту и пользу. См. «ложь», «наглая ложь» и «статистика».

by datadrivenangel • 07 августа 2025 г. в 21:36 • 805 points

Оригинал • HN

#openai #data-visualization #statistics

Комментарии (178)

Пользователи заметили, что в презентации GPT-5 графики сравнения моделей содержат явные ошибки: колонки 69,1 и 30,8 одинаковой высоты, а 50,0 выглядит меньше 47,4.
Мнения разделились: одни считают это обычной невнимательностью или досадной ошибкой верстки, другие — сознательным искажением, чтобы преувеличить преимущество новой модели.
Некоторые шутят, что «vibe-coding» и автоматизированная генерация графиков привели к провалу, а OpenAI, несмотря на миллиардные инвестиции, не может нанять специалиста по визуализации данных.
Несколько комментаторов предполагают, что эпичный «фейл» мог быть специально подан для вирального обсуждения и дополнительного хайпа.
В официальном пресс-релизе ошибки уже исправлены, но общее впечатление осталось: «эпоха AI-хайпа в одной картинке».

Monte Carlo Crash Course: Quasi-Monte Carlo (thenumb.at)

Monte Carlo Crash Course

Непрерывные распределения вероятностей
Экспоненциально лучшая интеграция
Сэмплинг
Кейс: рендеринг
Quasi-Monte Carlo
Скоро…

Мы уже определили и применили интеграцию Монте‑Карло — по сути, это единственный необходимый инструмент. Далее рассмотрим способы снижать дисперсию и эффективно сэмплировать сложные распределения.

Дисперсия и корреляция
Стратифицированный сэмплинг
Адаптивный сэмплинг
Латинский гиперкуб
Quasi‑Monte Carlo
Последовательности с низкой несоответственностью

Дисперсия и корреляция

Во второй главе мы увидели: дисперсия оценщика Монте‑Карло обратно пропорциональна числу выборок, а ожидаемая ошибка масштабируется как 1/√N в любом измерении. Это намного лучше экспоненциальной зависимости, но для очень высокой точности 1/√N всё ещё может быть недостаточно быстро; на практике N можно увеличивать лишь ограниченно.

Мы также предполагали независимость выборок, чтобы дисперсии складывались. Однако несмещённость интеграции Монте‑Карло не требовала независимости. Если выборки отрицательно коррелированы, ковариация < 0, дисперсия суммы снижается, и сходимость может быть быстрее 1/√N.

Poisson Disk Sampling

Перцептивно отрицательно коррелированные точки выглядят «более случайными»: независимые образуют кластеры и оставляют пробелы; отрицательная корреляция делает обратное — плотные области сэмплируются реже. Можно генерировать такие точки отбором с отказами: отбрасывать точки, слишком близкие к уже принятым (Poisson disk sampling). Это удобно для предгенерации с минимальным расстоянием, но плохо подходит для прогрессивных оценок, где нужно со временем покрыть весь домен.

Стратифицированный сэмплинг

Если минимальная дистанция не нужна, быстрее получать отрицательную корреляцию через стратификацию. Идея сочетает сильные стороны квадратур и Монте‑Карло: вместо N независимых точек по всему домену мы делим область на M равных ячеек и берём N/M независимых точек в каждой. Поскольку в ячейке не может быть больше N/M точек, они отрицательно коррелированы.

Рассмотрим оценщик на N стратифицированных выборках. Группировка по регионам переписывает его как сумму независимых оценок по каждой области Ωm, каждая с N/M выборками. По линейности матожидания такой оценщик несмещён: сумма интегралов по поддоменам равна интегралу по всему домену.

На примере с разбиением круга на M=64 областей получаем заметно меньшую ошибку, особенно при малых N. Точный выигрыш зависит от поведения функции f, но можно показать, что стратификация как минимум не увеличивает дисперсию.

Зачем стратифицировать?

Сравним равномерный N-выборочный оценщик по всему Ω с стратифицированным, равномерно сэмплирующим два поддомена A и B. Далее показывается, когда и почему стратификация уменьшает дисперсию за счёт контроля вариации внутри страт и отрицательной корреляции между ними.

by zote • 03 августа 2025 г. в 20:53 • 123 points

Оригинал • HN

#monte-carlo #quasi-monte-carlo #sampling #probability-distributions #random-number-generation #statistics

Комментарии (9)

Участники отметили, что слабый PRNG и фиксированный seed в Монте-Карло часто полезны: ускоряют расчёты и обеспечивают воспроизводимость для отладки.
Однако @clickety_clack возражает: фиксированный seed создаёт иллюзию точности, а менеджеры должны видеть влияние стандартной ошибки.
Обсудили, что для 500 акций учесть все ковариации практически невозможно из-за сложности взаимодействий.
Спор о скорости CSPRNG: один считает их дорогими, другой приводит пример быстрого алгоритма Randen.
Рекомендовали курс Steve Bruntonа как более доступное введение в вероятность и статистику.