Тег: #data-bias — Hacker News Digest

How AI hears accents: An audible visualization of accent clusters (accent-explorer.boldvoice.com)

Исследователи обучили модель для идентификации акцентов, используя 25 тысяч часов английской речи. Теперь можно услышать, как ИИ «слышит» разные акценты, преобразуя их в единый нейтральный голос. Это позволяет сравнивать акценты, скрывая личные особенности голосов. Например, испанский и итальянский акценты оказались рядом, что ожидаемо из-за схожести языков. Интересно, что ирландский акцент ближе к американскому, чем британский.

by ilyausorov • 14 октября 2025 г. в 16:07 • 244 points

Оригинал • HN

#llm #machine-learning #speech-recognition #natural-language-processing #data-bias

Комментарии (113)

Обсуждение охватывает широкий спектр тем: от трудностей распознавания акцентов до визуализации кластеров акцентов и их влияния на обучение моделей.
Участники делятся личным опытом, включая то, как их собственные акценты были распознаны и интерпретированы.
Обсуждаются ограничения и предвзятость в данных, используемых для обучения таких систем.
Также обсуждается влияние акцента на распознавание речи и как это влияет на пользователей с акцентом.

DeepSeek writes less secure code for groups China disfavors? (washingtonpost.com)

—

by otterley • 17 сентября 2025 г. в 17:24 • 234 points

Оригинал • HN

#llm #machine-learning #data-bias #crowdstrike #openai #google #natural-language-processing

Комментарии (150)

Критика отсутствия методологии и прозрачности в исследовании CrowdStrike, на котором основана статья The Washington Post.
Подозрения в предвзятости и пропагандистском характере публикации, направленной против китайских ИИ-разработок.
Обсуждение возможных технических причин явления, таких как артефакты данных обучения или обобщение моделями политических ограничений.
Отмечается, что другие модели (например, OpenAI, Google) могут иметь схожие геополитические предубеждения, но это не исследовалось.
Несколько пользователей провели собственные тесты, частично подтвердив основные выводы о разном качестве ответов для разных групп.
Подчеркивается, что добавление в промт несвязанной контекстной информации (например, упоминание группы) может влиять на вывод модели.
Высказывается мнение, что подобное поведение может быть непреднамеренным следствием обучения, а не злонамеренной "задней дверью".