Hacker News Digest

Тег: #nlp

Постов: 12

Комментарии (38)

  • Обсуждение началось с восторга по поводу модели Omnilingual ASR, но быстро перешло к вопросам о точности, языковых ограничениях и этичности оценки "уязвимости" языков.
  • Участники обсудили, что модель не работает с тональными языками, неясно, как она справляется с языками, имеющими мало цифровых ресурсов, и почему оценка "исчезающих" языков выглядит подозрительной.
  • Разговор затронул требования к данным для обучения TTS, возможность создания TTS из ASR-модели, а также то, что в демо-версии TTS не используются SSL-модели.
  • Также обсуждались вопросы лицензии и происхождения кода, а также то, что демо-версия может быть закрытым исходником.
  • В конце обсуждение сместилось к тому, что для добавления нового языка требуется лишь "несколько примеров" и что это может быть использовано для создания TTS-модели.

Language Support for Marginalia Search (marginalia.nu)

Поисковик Marginalia запустил пилотную программу с экспериментальной поддержкой немецкого, французского и шведского языков. Ранее система была ориентирована исключительно на английский, и её код содержал англоцентричные допущения. Поддержка всех языков одновременно невозможна из-за их фундаментальных различий: японский требует специальной нормализации из-за нескольких алфавитов и отсутствия пробелов между словами, а латинский имеет десятки форм каждого слова с гибким порядком слов.

Система обработки языка включает несколько этапов: извлечение текста, определение языка, разбиение на предложения, нормализацию Unicode, стемминг, POS-теггинг и извлечение ключевых слов. Основные проблемы включают несовершенство стемминга (например, "universe" и "university" считаются одинаковыми), культурные различия в нормализации (например, "tröjan" и "trojan" в шведском) и проблему начальной загрузки для TF-IDF в новых языках. Для решения используется конфигурируемый XML-файл с языковыми настройками и грамматическими паттернами.

by Bogdanp • 21 октября 2025 г. в 06:48 • 152 points

ОригиналHN

#search-engines#multilingual-support#nlp#pos-tagging#stemming#unicode#xml#apis#rdrpostagger

Комментарии (12)

  • Обсуждение показало, что Marginalia не только индексирует, но и предоставляет API и поисковые виджеты для сторонних проектов.
  • Участники обсудили возможность интеграции Marginalia в качестве поискового бэкенда для сайтов-агрегаторов, подобно тому, как HN использует Algolia.
  • Разработчик Marginalia упомянул, что работает над фильтрацией по доменам и скоро выпустит публичный API.
  • Также обсуждались детали реализации: RDRPOSTagger используется для POS-теггинга, но с оптимизациями, чтобы ускорить обработку.
  • Участники отметили, что Marginalia — это не только поисковый движок, но и инструмент для поиска по собственным закладкам и комментариям.

BERT is just a single text diffusion step (nathan.rs) 🔥 Горячее

Недавно автор обнаружил, что дискретная языковая диффузия — это просто обобщение masked language modeling (MLM), которое используется в BERT с 2018 года. Gemini Diffusion от Google DeepMind генерирует текст, постепенно уточняя случайный шум, в отличие от традиционных GPT-стиль моделей, создающих текст слово за словом. Автор задался вопросом, можно ли дообучить BERT-подобную модель для генерации текста, и провел эксперимент для проверки этой концепции.

Архитектура Transformer изначально была encoder-decoder моделью, но в 2018 году разделилась на две ветви: encoder-only (BERT-style, двунаправленные) и decoder-only (GPT-style, авторегрессивные). Диффузионные модели для текста применяют принципы, аналогичные обработке изображений, но вместо добавления шума используют маскирование токенов. На прямом процессе постепенно увеличивается количество замаскированных токенов, а на обратном — модель учится восстанавливать исходный текст, предсказывая токены на различных этапах маскирования.

by nathan-barry • 20 октября 2025 г. в 14:31 • 432 points

ОригиналHN

#bert#mlm#diffusion#transformer#gemini-diffusion#llm#nlp#arxiv

Комментарии (102)

  • В 2021 году в статье arXiv:2107.03006 впервые отметили, что маскирование и диффузия текста фактически реализуют один и тот же процесс, и с тех пор моделирующие стороны ведут дискуссию о том, какой из них «настоящий» диффузионный процесс.
  • Сторонники диффузии текста утверждают, что она более биологически правдоподобна, потому что человек, формулируя мысль, одновременно формулирует и слова, в то время как автопрегрессивные модели оперируют токенами последовательно, что якобы не соответствует тому, как работает мозг.
  • Сторонники же автопрегрессивных моделей отвечают, что в действительности и люди, и модели делают одно и то же, и что внутреннее представление мысли не является дискретным, и потому нет никакой разницы между последовательным и диффузионным подходами.
  • Сторонники диффузии текста также утверждают, что если мы хотим, чтобы модель могла бы редактировать или дополнять текст, то она должна уметь удалять и вставлять токены, что невозможно в рамках автопрегрессивного подхода.
  • Сторонники автопрегрессивных моделей отвечают, что в действительности диффузионные модели не могут обучаться стабильно без помощи автопрегрессивного механизма, и что в конце концов, оба подхода требуют одни и те же вычислительные и временные затраты, и что поэтому вопрос остается открытым, какой подход лучше подходит для генерации текста.

LLMs are getting better at character-level text manipulation (blog.burkert.me)

Революция в ИИ: языковые модели учатся работать с отдельными символами

Современные модели ИИ, такие как GPT-5 или Claude 4.5, демонстрируют значительный прогресс в обработке текста на символьном уровне. В отличие от своих предшественников, они научились точно манипулировать отдельными символами — например, заменять букву "r" на "l" в предложениях и наоборот, что раньше было серьезной проблемой. Это стало возможным благодаря более совершенной архитектуре, которая лучше справляется с токенизацией, несмотря на то, что текст разбивается на токены (которые могут соответствовать целым словам или их частям).

Ключевые улучшения включают точный подсчет символов, включая сложные случаи вроде подсчета букв "r" в слове "strawberry", где раньше модели ошибались. Теперь даже компактные модели, такие как GPT-5 Nano, справляются с этой задачей. Более того, они успешно решают и более сложные задачи, такие как декодирование текста, зашифрованного с помощью Base64 и ROT13 (или его вариаций, как ROT20). Например, когда им дают строку в Base64, соответствующую тексту "Hi, how are you doing? Do you understand the cipher?", модели способны декодировать и ответить на нее осмысленно.

Этот прогресс особенно важен для задач, требующих работы с отдельными символами, таких как парсинг, декодирование или генерация текста с определенными условиями. Теперь ИИ может надежно использоваться в сценариях, где критически важна точность на уровне символа, а не только на уровне слов или предложений.

by curioussquirrel • 13 октября 2025 г. в 19:39 • 115 points

ОригиналHN

#gpt-5#claud-4.5#llm#base64#rot13#nlp#text-processing#natural-language-processing

Комментарии (77)

  • LLM-ы продолжают «проверять» на задачах, для которых они не были разработаны (подсчет символов, разбор слов, игра в Quartiles), что вызывает дискуссии о ценности и ограничениях моделей.
  • Пользователи отмечают, что модели не могут подсчитать количество символов или применять детерминированные алгоритмы, но в то же время признают, что LLM не предназначены для таких задач.
  • Некоторые участники обсуждения выдвигают идею, что вместо того, чтобы «тестировать» модели на их способности выполнять такие задачи, следует разработать инструменты, которые могли бы выполнять такие операции, если это необходимо.
  • Обсуждение также затрагивает вопрос о том, что именно является «врагом» в таких ситуациях: ограничения модели, их обучение или ожидания пользователей.

A History of Large Language Models (gregorygundersen.com)

TL;DR
Статья представляет собой глубокий анализ эволюции идей, лежащих в основе современных LLM. От распределённых представлений и трансформеров до предобучения и масштабируемости. Автор прослеживает путь от идей 1980-х годов до современных моделей, подчеркивая, что прогресс был не линейным, а скорее серией прыжков, сделанных возможными благодаря вычислительной мощности и объёму данных. Он также подчеркивает, что многие ключевые идеи были предвосхищены десятилетиями раньше, но не были реализованы до недавнего времени из-за ограничений в вычислениях. В конце он размышляет о том, что следующий прыжок может быть связан с генеративностью и способностью моделей к обобщению, и что мы можем быть на пороге следующего качественного скачка.

Основные идеи и факты:

  • Распределённые представления и трансформер как центральные идеи, которые были предвосхищены в 1980-х годах, но не могли быть реализованы до недавнего времени из-за ограничений в вычислениях.
  • Предобучение и масштабируемость как ключевые факторы, которые позволили LLM достичь их современного уровня.
  • Attention is all you need - это не только архитектура, но и философия, которая подчеркивает важность масштабируемости и эффективного использования вычислительных ресурсов.
  • Масштабируемость и предобучение как два кита, на которых стоит современный успех LLM.

by alexmolas • 06 октября 2025 г. в 08:13 • 235 points

ОригиналHN

#llm#transformers#attention-mechanism#pretraining#scalability#bert#nlp#agi#neural-networks

Комментарии (17)

  • Обсуждение подчеркнуло, что ранние LLM-архитектуры (GPT-1, GPT-2) часто упускаются из виду, хотя именно они положили начало современному направлению.
  • Участники отметили, что статья недооценивает значение BERT как промежуточного этапа, несмотря на его влияние на многочисленные бенчмарки и задачи.
  • Сообщество отметило, что LLM не столько «решили» задачи, сколько стали вычислять вероятности последовательностей, и это вызвало скепсис в отношении заявлений о приближении к AGI.
  • Была затронута тема, что вместо специализированных моделей классификации или регрессии, которые раньше использовали предобученные репрезентации, теперь используют LLM как универсальный инструмент, и это вызывает вопросы о том, как именно LLM влияют на поле AI-исследований.

Why do LLMs freak out over the seahorse emoji? (vgel.me) 🔥 Горячее 💬 Длинная дискуссия

Крупные языковые модели уверенно утверждают, что эмодзи морского конька существует, хотя на самом деле его нет в Unicode. Это связано с тем, что в обучающих данных множество людей ошибочно вспоминают этот эмодзи — в соцсетях даже есть мемы и обсуждения на эту тему. Модели, как и люди, обобщают: раз есть другие морские эмодзи, логично предположить, что и морской конёк тоже должен быть.

При анализе через «логит-линзу» видно, как модель постепенно приходит к токену «horse»: сначала появляются случайные предсказания, затем — связанные с морем или животными, и в итоге — устойчивое повторение «horse». Это показывает, что модель не просто галлюцинирует, а строит последовательное, но ошибочное рассуждение. Практический вывод: даже уверенные ответы ИИ могут быть основаны на коллективных заблуждениях из данных.

by nyxt • 06 октября 2025 г. в 02:20 • 628 points

ОригиналHN

#llm#machine-learning#nlp#unicode

Комментарии (320)

  • Обсуждение фокусируется на феномене, когда языковые модели (LLM) демонстрируют уверенность в существовании эмодзи морского конька, которого на самом деле нет в стандарте Unicode.
  • Поведение моделей варьируется: одни сразу дают правильный ответ, другие впадают в циклы самокоррекции или "спирали", генерируя поток неверных предположений и оправданий.
  • Участники проводят параллели с "эффектом Манделы" — коллективным ложным воспоминанием, отмечая, что многие люди также ошибочно уверены в существовании этого эмодзи.
  • В качестве причин называются тренировка на текстах людей, которые ошибочно верят в его существование, и проблемы с токенизацией, когда модель не может корректно выразить внутреннее представление.
  • Некоторые отмечают, что точная формулировка запроса (например, вопрос о конкретном коде Unicode) помогает моделям дать корректный ответ с первого раза.

Lightweight, highly accurate line and paragraph detection (arxiv.org)

Новая модель на основе графовых сверточных сетей (GCN) решает задачу одновременного обнаружения строк и абзацев в документах. Вместо традиционных методов, которые обрабатывают эти элементы отдельно, подход объединяет их в единую структуру, где узлы графа представляют текстовые блоки, а связи отражают пространственные и семантические отношения. Это позволяет точнее определять логическую структуру документа, учитывая контекст и взаимодействие между строками и абзацами.

Модель демонстрирует высокую точность на стандартных наборах данных, превосходя предыдущие методы как в сегментации строк, так и в группировке их в абзацы. Ключевое преимущество — способность обрабатывать сложные макеты с перекрывающимися или разнородными блоками текста. Практический вывод: такой подход может значительно улучшить автоматическое извлечение информации из сканированных документов и PDF, сокращая потребность в ручной разметке.

by colonCapitalDee • 21 сентября 2025 г. в 21:18 • 132 points

ОригиналHN

#graph-convolutional-networks#computer-vision#document-analysis#pdf-processing#ocr#nlp#deep-learning#arxiv

Комментарии (23)

  • Обсуждаются сложности автоматического извлечения структурированного текста (абзацы, колонки, таблицы) из PDF, особенно с рукописными документами и изображениями.
  • Упоминается, что подобная технология (анализ кластеров для группировки слов) уже давно используется в iOS для функции масштабирования PDF по тапу.
  • Участники делятся проблемами и неудачным опытом с существующими инструментами для преобразования PDF в текст.
  • Поднимается вопрос о необходимости улучшения читаемого режима в браузерах и более надежных решений для классификации страниц с таблицами.
  • Предлагаются альтернативные решения с использованием ИИ (Gemini для OCR) и отмечается ироничность того, что сама научная работа об улучшении PDF доступна в формате PDF.

Taco Bell AI Drive-Thru (aidarwinawards.org)

Taco Bell vs ИИ: 0:1
ИИ-голосовые кассы в 500+ драйв-турах не справились с акцентами, «двойным соусом без кинзы» и троллингом. Клиенты жаловались на глюки и устроили флешмоб абсурдных заказов. WSJ зафиксировал: технологию «пересматривают», но в дорожной карте она всё ещё значится.

by planetdebut • 07 сентября 2025 г. в 21:14 • 121 points

ОригиналHN

#llm#nlp#voice-recognition

Комментарии (146)

  • Пользователи спорят, стоит ли внедрять ИИ в драйв- thru: кто-то хвалит точность и вежливость, кто-то ругает баги в духе «18 000 стаканов воды».
  • Основные претензии: очереди мешают трафику, машины пустятся на холостом, а заказы через ИИ легко троллить.
  • Многие предпочитают мобильный предзаказ: быстрее, параллельно и без разговоров, но часть клиентов не хочет ставить десятки «шпионских» приложений.
  • Критики считают запуск в 500 точках необдуманным: не хватает A/B-тестов, sanity-checks и учёта импульсивных покупателей, которым важен именно «захотел-сразу-в-очереди».
  • Вывод: ИИ-приёмка пока сыровата, но масштабные провалы дают ценные уроки и ускоряют доработку технологии.

The Annotated Transformer (2022) (nlp.seas.harvard.edu)

Суть статьи в двух словах

  • Transformer — архитектура нейросети, где всё держится на механизме внимания; свёртки и рекуррентные слои не нужны.
  • Ключевые компоненты:
    • Multi-Head Attention — параллельные «головы» вычисляют взвешенные суммы входов.
    • Positional Encoding — добавляет информацию о порядке токенов.
    • Feed-Forward — простые линейные слои между блоками внимания.
  • Тренировка:
    • Оптимизатор Adam с тёплым стартом и дропаутом.
    • Label Smoothing (коэффициент 0.1) уменьшает переобучение.
  • Результаты:
    • На WMT 2014 английский↔немецкий BLEU 28.4 (новый SOTA).
    • Обучение на 8 GPU занимает 12 часов до сходимости.
  • Вывод: «Внимание — всё, что нужно»; модель легко масштабируется и обучается параллельно.

by subset • 24 августа 2025 г. в 09:58 • 177 points

ОригиналHN

#transformer#attention-mechanism#multi-head-attention#positional-encoding#adam#label-smoothing#nlp#machine-learning#deep-learning#neural-networks

Комментарии (11)

  • @srush напомнил, что статья была переписана командой авторов, и поделился ссылками на свои материалы по CUDA и тензорам.
  • Участники хвалят качество объяснения attention и детализацию визуализации.
  • @ActorNightly спорит, что термины Key/Query/Value не несут особого смысла, так как матрицы произвольны.
  • @gchadwick возражает, подчёркивая разные роли K, Q, V при декодировании.
  • @roadside_picnic предлагает смотреть на attention как на kernel smoothing, что делает его интуитивнее.

SpaCy: Industrial-Strength Natural Language Processing (NLP) in Python (github.com)

spaCy — промышленная библиотека NLP на Python.
Быстрая, точная, поддерживает 70+ языков.

Основное

  • Установка
    pip install -U spacy
    python -m spacy download en_core_web_sm
    
  • Быстрый старт
    import spacy
    nlp = spacy.load("en_core_web_sm")
    doc = nlp("Apple is looking at buying U.K. startup for $1 billion")
    for ent in doc.ents:
        print(ent.text, ent.label_)
    

Возможности

  • токенизация, POS-теги, синтаксис, NER
  • готовые модели CNN/Transformer
  • обучение и дообучение
  • интеграция с PyTorch, Transformers, FastAPI
  • GPU/Apple Metal

Примеры

  • NER: выделение имён, дат, денег
  • Matcher: поиск паттернов
  • Projects: end-to-end пайплайны
  • spaCy LLM: LLM-интеграция без кода

Ресурсы

by marklit • 23 августа 2025 г. в 09:07 • 104 points

ОригиналHN

#spacy#python#nlp#pytorch#transformers#fastapi#ner#llm#machine-learning#natural-language-processing

Комментарии (40)

  • В эпоху LLM традиционный NLP (SpaCy) всё ещё нужен: дешевле, быстрее, работает на обычном железе и не требует постоянной оплаты провайдеру.
  • Участники хвалят SpaCy за отличный API, скорость, надёжность NER и удобство пайплайнов; активно используют в enterprise, RAG-метриках и даже на Raspberry Pi.
  • Некоторые задачи (классификация, сентимент) LLM решают хуже и дороже, поэтому возвращаются к дискриминативным моделям.
  • Сообщество отмечает, что проект немного сократился (v4 задерживается), но библиотека по-прежнему поддерживается и считается недооценённой.

Making LLMs Cheaper and Better via Performance-Efficiency Optimized Routing (arxiv.org)

Идея: вместо одного огромного LLM использовать роутер, который для каждого запроса выбирает наиболее подходящую по размеру и качеству модель из набора.
Проблема: GPT-4/5 дороги и не всегда нужны; мелкие модели дешевле, но хуже.
Решение: обучить роутер-LLM прогнозировать, какая модель справится с задачей с минимальными затратами и заданным порогом качества.

Методика:

  • Собрали 30 задач NLP (перевод, суммаризация, код и т.д.).
  • Для каждой задачи подготовили набор моделей разных размеров (от 1.3 B до 70 B параметров).
  • Обучили роутер на 100k примеров, где вход — запрос, выход — выбор модели + оценка качества.
  • Использовали Pareto-оптимизацию: минимизировать стоимость при фиксированном качестве.

Результаты:

  • При том же качестве, что у GPT-4, роутер сокращает стоимость в 4–6 раз.
  • На 50 % запросов достаточно модели 7 B вместо 70 B.
  • Роутер добавляет <1 мс задержки (незаметно).

Вывод: дешевле и быстрее держать «зоопарк» моделей + роутер, чем один сверхбольшой LLM.

by omarsar • 22 августа 2025 г. в 14:43 • 100 points

ОригиналHN

#llm#nlp#machine-learning#routing#optimization#performance#cost-efficiency#arxiv

Комментарии (21)

  • Обсуждают «роутинг» запросов между разными LLM вместо одной большой модели: берут 70 % примеров, смотрят, какая модель лучше справляется с каждым кластером, и на оставшиеся 30 % уже маршрутизируют.
  • Идея пока простая (эмбеддинг + выбор лучшей по истории), но сообщество считает её неизбежным следующим шагом после CoT и способом дешевле масштабироваться.
  • Критика: не учитывают латентность роутера, могут промахнуться со «сложными» запросами, выглядящими простыми; GPT-5 редко включает reasoning-модель.
  • Некоторые сравнивают с NotDiamond и другими стартапами, а также с «облачной» эволюцией: сначала дорого, потом дешевеет.
  • Видение будущего — AGI как ансамбль специализированных модулей, которые можно миксовать под задачу пользователя.

GPT-5: "How many times does the letter b appear in blueberry?" (bsky.app) 🔥 Горячее 💬 Длинная дискуссия

by minimaxir • 08 августа 2025 г. в 02:51 • 261 points

ОригиналHN

#gpt-5#gpt-4o#claude#qwen3#bsky.app#nlp#tokenization#llm

Комментарии (234)

  • GPT-5 без «режима рассуждений» ошибочно считает количество букв «b» в слове blueberry (выдаёт 2 вместо 3).
  • Пользователи связывают ошибку с особенностями токенизации и тем, что модель «не видит» отдельные символы.
  • При явном включении «режима рассуждений» или в других моделях (Claude, Qwen3, GPT-4o) ответ получается верным.
  • Обсуждение подчёркивает: быстрый «дешёвый» вывод может быть неточным, а автоматический роутер пока плохо распознаёт задачи, требующие точного перебора символов.