Hacker News Digest

25 октября 2025 г. в 19:57 • technologyreview.com • ⭐ 102 • 💬 54

OriginalHN

#artificial-intelligence#machine-translation#wikipedia#linguistics#data-quality#llm

AI, Wikipedia, and uncorrected machine translations of vulnerable languages

Искусственный интеллект и машинный перевод создали порочный круг для уязвимых языков в Википедии. Когда Кеннет Вир взял управление гренландской версией, он обнаружил, что из 1500 статей почти все были созданы не носителями языка, а содержали грубые ошибки от ИИ-переводчиков. Одна статья даже утверждала, что в Канаде проживает всего 41 житель. "AI translators are really bad at Greenlandic", - отмечает Вир, добавляя, что предложения часто не имели смысла или имели очевидные ошибки.

Проблема не уникальна для гренландского. В африканских языковых версиях Википедии 40-60% статей являются некорректированными машинными переводами, а в инуктитуте (родственном гренландскому) более двух третей страниц содержат части, созданные автоматически. Это создает "лингвистический doom loop": ИИ обучается на ошибках в Википедии, а затем пользователи используют этот ИИ для создания новых статей с ошибками, которые снова попадают в обучение. "Garbage in, garbage out" - как говорят эксперты, проблема сводится к простому принципу: некачественные данные порождают некачественные результаты.