Hacker News Digest

Тег: #linguistics

Постов: 8

AI, Wikipedia, and uncorrected machine translations of vulnerable languages (technologyreview.com)

Искусственный интеллект и машинный перевод создали порочный круг для уязвимых языков в Википедии. Когда Кеннет Вир взял управление гренландской версией, он обнаружил, что из 1500 статей почти все были созданы не носителями языка, а содержали грубые ошибки от ИИ-переводчиков. Одна статья даже утверждала, что в Канаде проживает всего 41 житель. "AI translators are really bad at Greenlandic", - отмечает Вир, добавляя, что предложения часто не имели смысла или имели очевидные ошибки.

Проблема не уникальна для гренландского. В африканских языковых версиях Википедии 40-60% статей являются некорректированными машинными переводами, а в инуктитуте (родственном гренландскому) более двух третей страниц содержат части, созданные автоматически. Это создает "лингвистический doom loop": ИИ обучается на ошибках в Википедии, а затем пользователи используют этот ИИ для создания новых статей с ошибками, которые снова попадают в обучение. "Garbage in, garbage out" - как говорят эксперты, проблема сводится к простому принципу: некачественные данные порождают некачественные результаты.

by kawera • 25 октября 2025 г. в 19:57 • 102 points

ОригиналHN

#artificial-intelligence#machine-translation#wikipedia#linguistics#data-quality#llm

Комментарии (54)

  • Пользователи обсуждают, что малые языки вроде гренландского или шотландского не имеют достаточного сообщества для поддержки Википедии, и что это делает их уязвимыми для AI-переводов и других проблем.
  • Участники обсуждения подчеркивают, что вместо того, чтобы пытаться сохранить эти языки, было бы лучше признать, что языки умирают естественно и что это не обязательно плохо.
  • Некоторые участники поднимают вопрос о том, что если никто не говорит на этих языках, то возможно не стоит пытаться сохранять их в Википедии.
  • Другие участники отмечают, что вместо того, чтобы пытаться сохранить эти языки, было бы лучше сосредоточиться на сохранении знаний, которые могут быть утеряны, если эти языки исчезнут.

Ambigr.am (ambigr.am) 🔥 Горячее

Сервис Ambigr.am требует включения JavaScript в браузере для своей работы. Это стандартная практика для современных веб-приложений, которые используют интерактивные функции и динамический контент. Без активации JavaScript пользователь не сможет взаимодействовать с интерфейсом или получать полный функционал платформы.

Отключение JavaScript может ограничить доступ к ключевым возможностям, таким как обработка данных в реальном времени или анимации. Рекомендуется проверить настройки браузера и разрешить выполнение скриптов для корректной работы сервиса.

by surprisetalk • 05 октября 2025 г. в 04:11 • 279 points

ОригиналHN

#javascript#web-applications#ambigrams#linguistics

Комментарии (37)

  • Участники делятся примерами известных амбиграмм (логотипы The Princess Bride, Sun Microsystems, Tyrian, OHIO) и личными историями, связанными с ними.
  • Обсуждаются технические аспекты создания амбиграмм: возможность генерации с помощью алгоритмов, шрифтов с лигатурами, контекстуальными альтернативами и даже моделей диффузии.
  • Высказываются идеи о применении амбиграмм в лингвистике (гипотеза Сепира-Уорфа) и их сходстве с языком из фильма «Прибытие».
  • Отмечается игровой и головоломный характер амбиграмм, а также удобство интерактивных функций сайта (например, переворот изображения по клику).
  • Некоторые пользователи впервые знакомятся с концепцией амбиграмм и выражают восхищение, другие делятся связанными ресурсами (сайты, архивные проекты).

The strangest letter of the alphabet: The rise and fall of yogh (deadlanguagesociety.com) 🔥 Горячее 💬 Длинная дискуссия

В английском алфавите существовала буква йог (ȝ), которая появилась в староанглийский период как вариант написания звука [g]. Она выглядела как нечто среднее между «z» и «3» и использовалась наряду с каролингской «g», пришедшей из латинской письменности. После нормандского завоевания йог постепенно исчез, но оставила после себя запутанное наследие: многие слова, где раньше писалась эта буква, теперь используют «gh» (как в «night» или «thought»), что объясняет множество непроизносимых сочетаний в современном английском.

Йог — наглядный пример того, как исторические изменения орфографии усложнили письменность. Её исчезновение привело к появлению «немых» букв и неочевидных правил чтения, которые до сих пор затрудняют изучение языка. Это ещё один штрих к портрету английской орфографии — системы, где каждая странность имеет глубокие корни.

by penetralium • 02 октября 2025 г. в 21:34 • 273 points

ОригиналHN

#linguistics#orthography#english-language#history#etymology

Комментарии (251)

  • Участники обсуждают историю и сложности английской орфографии, включая утраченные буквы (например, yogh, thorn) и нефонетическое написание.
  • Поднимается вопрос о реформе английского правописания для большей фонетичности, но отмечаются трудности из-за множества диалектов и исторической ценности текущей системы.
  • Обсуждаются примеры из других языков (например, финский, французский) для сравнения фонетических и нефонетических систем письма.
  • Упоминаются конкретные проблемы, такие как избыточность букв (c, q, x), неоднозначные звуки (ch, gh) и роль непроизносимых букв в сохранении этимологии.
  • Шутливо предлагается создать репозиторий для pull requests по изменению английского языка или использовать альтернативные алфавиты (например, Shavian).

Patagonian Welsh (en.wikipedia.org)

Патагонский валлийский — уникальный диалект валлийского языка, сохранившийся в аргентинской Патагонии благодаря переселенцам из Уэльса, прибывшим в середине XIX века. Он развивался в изоляции от метрополии, что привело к заметным отличиям в лексике и произношении, включая заимствования из испанского, особенно в терминах, связанных с местной флорой, фауной и административными реалиями. Например, слова вроде capel (часовня) и ysgol (школа) остались неизменными, но появились гибриды типа llefrith (молоко) вместо стандартного llaeth.

Несмотря на угрозу исчезновения, язык поддерживается через двуязычное образование — в регионе действуют школы с преподаванием на валлийском и испанском, а также культурные мероприятия, такие как ежегодный eisteddfod (фестиваль искусств). Это помогает сохранить около 5 000 носителей, демонстрируя, как языковые меньшинства могут адаптироваться и выживать в глобализированном мире через образование и традиции.

by tintinnabula • 25 сентября 2025 г. в 04:30 • 86 points

ОригиналHN

#welsh#spanish#culture#linguistics

Комментарии (39)

  • Участники делятся личными связями и историями, связанными с валлийским сообществом в Патагонии (Аргентина).
  • Обсуждается история и культурное наследие валлийского языка, его связь с другими кельтскими языками и его сохранение в Патагонии.
  • Упоминаются культурные продукты: фильм, ситком и эпизод сериала, посвященные патагонским валлийцам.
  • Затронут лингвистический вопрос о сравнении "возраста" языков и их классификации.
  • В комментариях встречаются технические замечания и флаги.

We Politely Insist: Your LLM Must Learn the Persian Art of Taarof (arxiv.org)

Исследователи предлагают обучать большие языковые модели искусству персидского таарофа — сложной системе вежливости, включающей ритуальные отказы, косвенные просьбы и тонкие социальные нюансы. Это требует понимания контекста, иерархии и культурных кодов, выходящих за рамки западных норм вежливости.

Модели без такого обучения часто воспринимают таароф буквально, что ведёт к неловким или оскорбительным ситуациям. Например, на предложение «останьтесь на обед» правильный ответ — вежливый отказ, а не прямое согласие. Интеграция таарофа улучшит взаимодействие ИИ в мультикультурных контекстах, подчеркнув важность культурной специфики в NLP.

by chosenbeard • 22 сентября 2025 г. в 00:31 • 134 points

ОригиналHN

#machine-learning#natural-language-processing#cultural-context#llm#linguistics#social-norms#communication-protocols#arxiv

Комментарии (77)

  • Обсуждается опасность обучения LLM на культурных нормах вроде персидского таарофа и кетмана (искусства ритуальной вежливости и скрытности), так как это может усилить деceptiveness моделей.
  • Участники проводят параллели с другими культурами: ирландской, норвежской, японской (имаваси), западной вежливостью и теорией вежливости в лингвистике, отмечая универсальность косвенности в коммуникации.
  • Высказываются опасения, что LLM, будучи обученными в основном на западных данных, плохо справляются с восточными культурными тонкостями, и их вежливость часто выглядит неестественно или "слишком по-продажному".
  • Отмечается, что низкий человеческий бенчмарк (81.8%) для таарофа демонстрирует сложность даже для носителей, а также что модели могут стереотипизировать поведение, оправдывая его гендером, а не культурным контекстом.
  • Поднимается вопрос о том, что такие ритуалы служат социальным фильтром и способом демонстрации эмоционального интеллекта, а их сложность — часть культурной идентичности, которую ИИ может не уловить без достаточных данных и тонкой настройки.

Researchers find evidence of ChatGPT buzzwords turning up in everyday speech (news.fsu.edu) 💬 Длинная дискуссия

Исследование FSU: слова ChatGPT проникают в речь

Учёные Флоридского госуниверситета (FSU) зафиксировали, что популярные у ИИ-чатботов выражения вроде «глубокое погружение», «давайте разберёмся» и «важно отметить» всё чаще звучат в обычных разговорах.

Анализ соцсетей, подкастов и личных диалогов показал рост таких фраз на 30 % за последний год. Лингвисты считают, что люди бессознательно копируют стиль ИИ, считая его «умным» и «убедительным».

Исследователи предупреждают: чрезмерное заимствование может сделать речь шаблонной, но также подчеркивают, что язык всегда развивается под влиянием технологий.

by giuliomagnifico • 27 августа 2025 г. в 21:27 • 172 points

ОригиналHN

#llm#natural-language-processing#linguistics

Комментарии (272)

  • Участники обсуждают рост частоты слов «delve», «intricate», «surpass», «boast», «meticulous», «strategically», «garner» и связывают его с ChatGPT.
  • Некоторые считают это «баззвордами» и признаком ИИ-текста, другие — обычными словами, которые просто стали чаще употребляться.
  • Люди начинают избегать этих слов, тире и эмодзи, чтобы не выглядеть «ботом».
  • Появляются «сигналы человечности» — опечатки, избегание «слишком правильного» стиля.
  • Участники сравнивают влияние ИИ на язык с влиянием соцсетей, ТВ и книг.

Ted Chiang: The Secret Third Thing (linch.substack.com)

by pseudolus • 19 августа 2025 г. в 00:05 • 248 points

ОригиналHN

#science-fiction#philosophy#thermodynamics#determinism#religion#linguistics

Комментарии (112)

  • Участники подчёркивают, что Тед Чианг создаёт строго внутренне согласованные миры, чтобы исследовать человеческие последствия идей, а не «научную точность» в духе hard sci-fi.
  • Спорят, является ли «Hell Is the Absence of God» критикой религии: одни видят в нём разоблачение, другие — исследование страдания и веры в мире, где Бог существует наверняка.
  • «Exhalation» воспринимается как идеальный пример «герметичной» термодинамики: законы те же, но упрощённая вселенная позволяет ощутить энтропию «вживую».
  • «Story of Your Life» трактуют не как про язык Сапира-Уорфа, а как размышление о лагранжевом детерминизме и восприятии времени.
  • Несколько человек советуют Грега Игана и Кена Лю как авторов с похожим подходом к контрфакту и философии.

You know more Finnish than you think (dannybate.com)

Лингвистика проясняет непонятное — я всегда так думал. Чуть‑чуть исторической лингвистики уже помогает видеть связи и снимать психологические барьеры. В двух старых постах я через этимологию объяснял места в Беовульфе и «Страннике».

А теперь — незапланированная третья часть: покажу, как целый язык может оказаться знакомым. Речь о «страшно сложном» финском. Слов, узнаваемых для англоговорящего, больше, чем одно «сауна».

Fiendish Finnish?

Сложность финского — вопрос перспективы. У него репутация трудного с общеевропейской точки зрения: почти вся Европа говорит на индоевропейских языках — от английского и ирландского до русского и греческого.

Немногие «дыры» в этом покрывале — венгерский, баскский — закономерно кажутся другими по лексике, грамматике и звукам. Финский — ещё одна такая «дыра»: увидев числа yksi, kaksi, kolme, neljä, viisi, англоговорящий ученик стремится вернуться к знакомому индоевропейскому.

С позиции носителя английского финский и правда чужд. Но не для самих финнов и их «родни» — финских языков на восточных берегах Балтики, то есть финских (Finnic).

В ветви около одиннадцати языков. Два — национальные: финский и эстонский. Карельский имеет статус в Карелии (РФ), но он и другие финские языки там сильно вытесняются русским.

Как и английский, финский имеет сложную праисторию. Его ближайшая группа — в древе уральских языков, куда входят также венгерский и саамские.

В дереве много узлов и пра-стадий. Финские языки восходят к прафинскому (Proto-Finnic), последнему общему предку около II тыс. до н. э.

Как именно собирать «пазл» уральских языков, учёные спорят: большая территория, поздние письменные источники и внешние влияния усложняют задачу по сравнению с индоевропейскими. Манит гипотеза общего происхождения двух семейств, но сигнал из глубокой древности слишком слаб — легко спутать со случайностями.

Значит, для нас английский и финский — отдельные по происхождению. Из‑за отсутствия знакомой лексики финский пугает. Что делать ученику — бояться, мучиться или сдаться?

Нет! История языка выручает.

Finnic and Friends

Хотя семейства разные, жёстких границ для слов нет. Индоевропейские языки тысячелетиями давали лексику финскому и его предкам — это нормально. Узнавая такие заимствования, финский перестаёт казаться чужим.

С учётом средневековых и новых властителей Финляндии в финском полно слов из шведского и русского. Они полезны и англоговорящим, особенно шведские: это родственный германский язык. В финском housut ‘штаны’, halli ‘зал’, hytti ‘каюта’ легко соотносятся с английскими hose, hall, hut.

Помимо престижного шведского, торговые германские языки, например нижненемецкий, тоже повлияли. Раннеславянская речь, ещё до «русского», оставила след. Город Турку происходит от восточнославянского слова ‘торг’ (ср. русск. торг).

Волны разных языков веками — даже тысячелетиями — накатывали на финнов и оставляли лексику.

Дальше — о самых ранних заимствованиях, до средневековья: как праанглийский повлиял на прафинский. Благодаря раннему времени (бронза и железо) эти слова встречаются по всей финской ветви, не только в финском.

Задолго до появления письменности в финских языках (с XIII в.)…

by infinate • 04 августа 2025 г. в 19:08 • 130 points

ОригиналHN

#linguistics#etymology#culture#language#finland#finnish#indo-european#agglutination

Комментарии (109)

  • Участники обсуждают финский язык через призму культуры и мемов: популярность песни Ievan Polkka (включая версии a cappella, фолк-метал Korpiklaani и мем Leek Spin) и шутки из игр (Noita с финскими прозвищами врагов).
  • Делятся личными историями: кто-то жил в Финляндии или имеет финские корни, но язык даётся трудно; другие знают лишь отдельные слова вроде “sauna”, “perkele”, “ei saa peittää”.
  • Отмечают особенности финского: значимость долготы звуков, агглютинация и длинные слова, поэтичные составные слова (“хвост‑звезда” для кометы, “голова‑город” для столицы), древние корни типа “luu/kuu/suu”.
  • Обсуждают заимствования: от древних индоевропейских пластов до современного “Finglish” в ИТ (“printteri”, “bugittaa”, “buuttaa”), при том что финский часто предпочитает собственные композиты.
  • Мнения о сложности: многие считают финский крайне трудным для взрослых, но есть примеры успешного освоения; билингвальные/мультиязычные дети осваивают легче.
  • Замечают культурную и географическую изоляцию финского (схожесть с эстонским, но более консервативная форма), а также проблемы и несогласованность финских переводов в софте.
  • Курьёзы и гипотезы: возможные связи с древнегерманскими формами, шутливая версия про “boy” от “poika”, бытовые надписи и лейблы как источник “выученного” финского.