Тег: #data-science — Hacker News Digest

Most users cannot identify AI bias, even in training data (psu.edu)

Исследование Университета штата Пенсильвания показало, что большинство пользователей не способны распознать предвзятость в данных для обучения ИИ, даже когда она очевидна. Участники экспериментов не заметили систематической предвзятости в обучающих данных, где белые лица использовались исключительно для выражения счастья, а черные — для выражения несчастья. Исследователи создали 12 версий прототипа ИИ для распознавания эмоций и протестировали его на 769 участниках в трех экспериментах. Большинство участников не видели предвзятости, пока не столкнулись с ее проявлениями в работе системы.

«В этом случае ИИ, похоже, научился считать расу важным критерием для определения, счастливое ли лицо или грустное, хотя мы и не хотели, чтобы он это усвоил», — отметил ведущий автор исследования С. Шайам Сундар. Черные участники чаще распознавали расовую предвзятость, особенно когда речь шла о негативных изображениях людей их расы. Исследователи были удивлены, что люди не замечали смешения расы и эмоций в обучающих данных, что привело к созданию ИИ, связывающего эти характеристики.

by giuliomagnifico • 18 октября 2025 г. в 18:13 • 89 points

Оригинал • HN

#llm #machine-learning #bias #data-science #artificial-intelligence #algorithmic-bias

Комментарии (54)

Обсуждение вращается вокруг вопроса, что такое «предвзятость» и как её выявлять: от распознавания субъективной оценки до технических ограничений моделей.
Участники подчеркнули, что «предвзятость» может быть как внутри самой модели (например, в обучающих данных), так и в самом человеке, который её использует.
Были примеры, где модель, обученная на данных, которые могут быть предвзятыми, может неправильно классифицировать лица, выражения или даже объекты.
Также обсуждалось, что даже если модель не имеет встроенной предвзятости, пользователь может всё равно увидеть в ней отражение собственных убеждений.
В конце-концов, обсуждение подвело к выводу, что критическое мышление и саморефлексия — единственный способ распознать и уменьшить влияние как встроенной, так и человеческой предвзятости.

The collapse of the econ PhD job market (chrisbrunet.com) 💬 Длинная дискуссия

Рынок труда для экономистов с PhD переживает резкий спад: количество вакансий сократилось на 30% за три года, с 1477 в 2022 до прогнозируемых ~1000 в 2025. Особенно сильно пострадали академические позиции — число штатных должностей в университетах упало на 35%, с 631 до около 400. При этом 94% кандидатов всё ещё стремятся к карьере в академии, что создаёт острую конкуренцию на фоне сокращающихся возможностей. Данные подтверждаются как официальной статистикой Американской экономической ассоциации, так и независимым проектом Econ Job Market, где количество приглашений на собеседования снизилось на 34,8%. Это ставит под вопрос традиционную ценность докторской степени в экономике как гарантии стабильной карьеры.

by Ozarkian • 03 октября 2025 г. в 16:49 • 172 points

Оригинал • HN

#economics #data-science #llm #inflation #academia #education #job-market

Комментарии (255)

Кризис доверия к экономистам из-за восприятия их предвзятости и неспособности адекватно объяснить рост инфляции
Сокращение финансирования и наборов в аспирантуры по экономике и другим дисциплинам из-за бюджетных проблем вузов и неопределенности с грантами
Растущее несоответствие академической экономики, сфокусированной на сложных моделях, реальным потребностям рынка и интересам вне академии
Вытеснение традиционных экономических методов специалистами по data science и большим данным, а также потенциальное влияние ИИ
Перепроизводство PhD-выпускников при сокращении количества штатных позиций в академии и государственном секторе

Anscombe's Quartet (en.wikipedia.org)

Квартет Энскомба — четыре набора точек (x, y), у которых:

средние и дисперсии x, y почти одинаковы;
коэффициенты корреляции и регрессии совпадают;
но визуально графики радикально различаются.

Набор	Особенность
I	линейная зависимость
II	нелинейная
III	один выброс
IV	выброс по x

Вывод: цифры без графика могут ввести в заблуждение.

by gidellav • 08 сентября 2025 г. в 09:29 • 115 points

Оригинал • HN

#data-visualization #statistics #data-analysis #data-science #scatter-plot #regression-analysis #data-interpretation #outliers #skewness #simpsons-paradox

Комментарии (25)

Обсуждение началось с Data-morph и «датазавра» — генерализированного датасета, где можно задать любую форму точек.
Упомянули Anscombe’s Quartet: 4 набора с одинаковыми summary-stats, но разной визуальной структурой; его используют, чтобы показать важность визуализации и парадокс Симпсона.
Участники подчёркивают: без графиков (scatter, hist, boxplot) можно упустить выбросы, кластеры и скрытые закономерности; цифры не заменят «глаз».
Некоторые спрашивают, могут ли skewness, p99 или другие метрики всё-таки различать квартет; мнения расходятся — визуализация остаётся быстрейшим способом.
Практический вывод: сначала смотрим, потом считаем; в многомерных данных это особенно критично, потому что «увидеть» уже сложнее.