AI, Wikipedia, and uncorrected machine translations of vulnerable languages
Искусственный интеллект и машинный перевод создали порочный круг для уязвимых языков в Википедии. Когда Кеннет Вир взял управление гренландской версией, он обнаружил, что из 1500 статей почти все были созданы не носителями языка, а содержали грубые ошибки от ИИ-переводчиков. Одна статья даже утверждала, что в Канаде проживает всего 41 житель. "AI translators are really bad at Greenlandic", - отмечает Вир, добавляя, что предложения часто не имели смысла или имели очевидные ошибки.
Проблема не уникальна для гренландского. В африканских языковых версиях Википедии 40-60% статей являются некорректированными машинными переводами, а в инуктитуте (родственном гренландскому) более двух третей страниц содержат части, созданные автоматически. Это создает "лингвистический doom loop": ИИ обучается на ошибках в Википедии, а затем пользователи используют этот ИИ для создания новых статей с ошибками, которые снова попадают в обучение. "Garbage in, garbage out" - как говорят эксперты, проблема сводится к простому принципу: некачественные данные порождают некачественные результаты.
Комментарии (54)
- Пользователи обсуждают, что малые языки вроде гренландского или шотландского не имеют достаточного сообщества для поддержки Википедии, и что это делает их уязвимыми для AI-переводов и других проблем.
- Участники обсуждения подчеркивают, что вместо того, чтобы пытаться сохранить эти языки, было бы лучше признать, что языки умирают естественно и что это не обязательно плохо.
- Некоторые участники поднимают вопрос о том, что если никто не говорит на этих языках, то возможно не стоит пытаться сохранять их в Википедии.
- Другие участники отмечают, что вместо того, чтобы пытаться сохранить эти языки, было бы лучше сосредоточиться на сохранении знаний, которые могут быть утеряны, если эти языки исчезнут.
Wikipedia says traffic is falling due to AI search summaries and social video 🔥 Горячее 💬 Длинная дискуссия
Wikipedia столкнулась со значительным снижением трафика — на 8% в годовом исчислении, согласно данным Wikimedia Foundation. Основными причинами этого падения стали ИИ-резюме в поисковых системах, которые предоставляют ответы без необходимости перехода на сайт, а также популярность коротких видео в социальных сетях, которые становятся основным источником информации для многих пользователей. Эти изменения отражают более широкую трансформацию поведения пользователей в интернете.
Несмотря на это, Wikipedia по-прежнему остаётся одним из самых надёжных источников информации, часто называемым "последним хорошим сайтом" в интернете, заполненном токсичным контентом. Фонд Wikimedia ищет способы адаптироваться к новой реальности, где пользователи всё реже совершают прямые переходы на сайт для получения знаний, предпочитая получать информацию через ИИ-ассистентов и развлекательный формат.
Комментарии (349)
- Трафик и финансирование: спад трафика не обязательно плох — он может снижать расходы на хостинг, а пожертвования всё растут.
- AI и источники: LLM не заменяет Википедию, а лишь упрощает доступ к ней; сама Википедия остаётся ключевым источником.
- **Финансовая устойчивость фонда: у фонда есть резервы, и он не зависит от рекламы, поэтому падение трафика не влияет на доходы.
- **Конфликт интересов Google и Википедии: Google не заинтересован в поддержании Википедии, поскольку их AI-саммари оттягивает трафик и, следовательно, доходы от рекламы.
Show HN: I'm making a detective game built on Wikipedia 🔥 Горячее
Похоже, вы предоставили только название "Detective Wiki", но не саму статью для пересказа. Для создания точного и ёмкого саммари в формате Markdown на русском языке мне нужен полный текст статьи с Hacker News.
Пожалуйста, предоставьте статью, и я подготовлю для вас пересказ примерно в 170 словах, выделив главную идею и ключевые факты.
Комментарии (42)
- Пользователи отмечают, что игра «Where is X» нуждается в «естественном» завершении и награде за угаданное слово, а также в более коротком времени игры, чтобы она была похожа на Wordle.
- В игре «Where is X» повторяются одни и те же статьи, что вызывает усталость и снижает ценность контента.
- В «Where is X» не хватает визуального подтверждения правильного ответа, а также неясно, что именно считается победой.
- В «Where is X» не хватает визуального подтверждения правильного ответа, а также неясно, что именно считается победой.
Wikipedia survives while the rest of the internet breaks 🔥 Горячее 💬 Длинная дискуссия
Wikipedia живёт, потому что скучна
Пока весь интернет рушится, «вики» стоит. Её секрет — не в деньгах, а в правилах: нейтральный тон, проверяемые источники, консенсус редакторов.
Салют Маска как тест прочности
20 января 2025 года Илон Маск показал жест, похожий на нацистское приветствие. Первый редактор добавил фразу в статью, второй — удалил: биографии живых людей защищены строже. Началась многочасовая дискуссия: это был нацистский салют, неловкий жест или провокация? Вместо войны правок редакторы перешли к голосованию и источникам.
Почему это работает
- Правила > эмоций: каждое утверждение требует двух независимых публикаций.
- Скорость через процесс: новость появляется, когда её подтвердят, а не когда взорвётся твиттер.
- Скука как щит: отсутствие лайков и алгоритмов не даёт вирусному гневу захватить платформу.
Итог: Wikipedia остаётся последним островком фактов в океане контента, который ломается каждый день.
Комментарии (390)
- Участники спорят, действительно ли Wikipedia «последний добрый остров» интернета: одни хвалят, другие критикуют за политическую ангажированность и «захваченность» тематическими кланами.
- Подчёркивают, что английская версия ещё держится, а вот неанглоязычные часто превращаются в пропаганду и исторические фальсификации.
- Отмечают рост давления со стороны властей (пример – запросы конгрессменов раскрыть имена редакторов) и опасность массовых доносов/доксинга внутри сообщества.
- Многие советуют читать не только статью, но и страницу обсуждения, а также историю правок, чтобы видеть, какие точки зрения вырезали и почему.
- Часть комментаторов считает, что выживание Wikipedia возможно именно благодаря медленному, «не-стартаповому» принципу и отсутствию прибыли, но ресурс уже «подсел» на пожертвования и всё чаще поддаётся внешнему влиянию.
Wikipedia as a Graph
wikigrapher — поиск кратчайших путей между статьями Википедии.
Меню: пути, страницы, редиректы, категории, сироты. Вход.
Дамп en-wiki 20.08.2025
- узлы: 7 043 985 страниц, 11 563 911 редиректов, 2 550 366 категорий, 27 427 сирот
- связи: 691 392 572 ссылок, 11 535 980 редиректов, 44 331 587 принадлежностей
Инструменты
- граф: пропустить, лимит, иерархия, направления UD/DU/LR/RL
- солверы: barnesHut, hierarchicalRepulsion, forceAtlas2Based
- действия: случайный, скачать, очистить
API & мониторинг
swagger-ui • eureka • tracer • dashboards • grafana
Комментарии (56)
- Пользователи удивлены количеством и неожиданностью путей между статьями (Tetris → Family Guy → Tour de France).
- Предложено исключать ссылки из категорий/наград, чтобы показывать более «интересные» связи.
- Отмечены баги: «Love → Kissinger» не находится, «Sogdia → Teotihuacan» не отображается.
- Несколько человек поделились альтернативами: thewikigame.com, wikiwalk.app, wikijumps.com, txtai-векторный граф.
- Популярные пожелания: весить рёбра по расположению ссылки, показывать контекст абзаца, фильтровать «общие» узлы.
- Сайт временно лежит («hugged to death» / Cloudflare 502).
Wikipedia loses challenge against Online Safety Act 🔥 Горячее 💬 Длинная дискуссия
Wikimedia Foundation проиграла судебный спор против положений Закона об онлайн-безопасности, требующих от крупных платформ верификации личности пользователей. Фонд утверждал, что это подвергает риску безопасность и права добровольных редакторов Wikipedia, но Высокий суд отказал в иске.
Суд подчеркнул, что Ofcom и правительство обязаны защитить Wikipedia. Правительство приветствовало решение, заявив, что оно поможет внедрить закон и сделать интернет безопаснее.
Иск касался классификации Wikipedia как «категория 1» — самый строгий уровень регулирования, изначально предназначенный для крупных соцсетей. Wikimedia считает, что правила слишком широкие и логически не выдержаны.
Комментарии (784)
- Высокий суд отклонил иск Wikimedia против обязанностей Category 1 в UK Online Safety Act, что ставит под угрозу работу Wikipedia в Великобритании.
- Участники считают закон чрезмерным: он затрагивает даже сайты без рекомендательных алгоритмов и может привести к обязательной верификации пользователей.
- Многие предлагают Wikipedia просто заблокировать доступ из UK, чтобы продемонстрировать последствия закона и вызвать общественный резонанс.
- Обсуждаются и практические вопросы: имеет ли Wikimedia активы или сотрудников в UK, и как реально будет наложить штрафы, если организация проигнорирует требования.
Wikimedia Foundation Challenges UK Online Safety Act Regulations 🔥 Горячее 💬 Длинная дискуссия
Фонд Wikimedia оспаривает положения британского «Закона о безопасности в интернете»
11 августа Высокий суд Лондона отклонил иск Фонда Wikimedia против Categorisation Regulations «Закона о безопасности в интернете» (OSA). Суд подтвердил, что:
- Wikipedia имеет «значительную ценность» и безопасна для пользователей;
- неправильная категоризация может нарушить права волонтёров;
- обязанность защищать проект ложится на Ofcom и британское правительство.
Фонд продолжит добиваться гарантий, чтобы свободное знание оставалось доступным.
Комментарии (187)
- Участники обсуждают, стоит ли Wikimedia блокировать доступ из Великобритании, чтобы привлечь внимание СМИ и заставить политиков изменить закон.
- Некоторые считают, что Wikipedia может просто отключить рекомендательные алгоритмы для британских пользователей, чтобы избежать категоризации как "сервис первой категории".
- Другие подчеркивают, что отказ от работы в Великобритании может стать прецедентом для других стран, и предлагают просто игнорировать требования, как это делают в более авторитарных государствах.
- Участники также отмечают, что Wikimedia уже проиграла судебный иск, и теперь возможны санкции, блокировки или аресты сотрудников при въезде в Великобританию.
The Article in the Most Languages
Краткий обзор «Signpost»: дезинформация
Самый переводимый биографический материал Википедии — кто он?
- Итог: статья о неизвестном персонаже стала лидером по количеству языковых версий, вызвав подозрения в скоординированной кампании.
- Методы: массовые переводы за короткий срок, одинаковые источники, активность новых аккаунтов.
- Реакция: редакторы запросили проверку достоверности, часть версий удалена, открыто обсуждение о правилах быстрых переводов.
Комментарии (69)
- На HN заметили аномально высокое число переводов статьи о Дэвиде Вударде, что запустило расследование итальянской Википедии.
- Раскрыта масштабная десятилетняя кампания саморекламы: ≈200 аккаунтов, 335 языковых версий, прокси-IP.
- Сообщество за месяц сократило статьи с 335 до 20, полностью разоблачив сеть.
- Участники обсуждают, почему на самой странице Вударда нет упоминания о скандале: нужны внешние источники, а не «оригинальное исследование».
- Некоторые считают, что переводы на малые языки были лишними и выдали махинацию; другие жалуются на «токсичных» удаляторов и защиту нейтральности Википедии.