Комментарии (38)
- Обсуждение началось с восторга по поводу модели Omnilingual ASR, но быстро перешло к вопросам о точности, языковых ограничениях и этичности оценки "уязвимости" языков.
- Участники обсудили, что модель не работает с тональными языками, неясно, как она справляется с языками, имеющими мало цифровых ресурсов, и почему оценка "исчезающих" языков выглядит подозрительной.
- Разговор затронул требования к данным для обучения TTS, возможность создания TTS из ASR-модели, а также то, что в демо-версии TTS не используются SSL-модели.
- Также обсуждались вопросы лицензии и происхождения кода, а также то, что демо-версия может быть закрытым исходником.
- В конце обсуждение сместилось к тому, что для добавления нового языка требуется лишь "несколько примеров" и что это может быть использовано для создания TTS-модели.
Language Support for Marginalia Search
Поисковик Marginalia запустил пилотную программу с экспериментальной поддержкой немецкого, французского и шведского языков. Ранее система была ориентирована исключительно на английский, и её код содержал англоцентричные допущения. Поддержка всех языков одновременно невозможна из-за их фундаментальных различий: японский требует специальной нормализации из-за нескольких алфавитов и отсутствия пробелов между словами, а латинский имеет десятки форм каждого слова с гибким порядком слов.
Система обработки языка включает несколько этапов: извлечение текста, определение языка, разбиение на предложения, нормализацию Unicode, стемминг, POS-теггинг и извлечение ключевых слов. Основные проблемы включают несовершенство стемминга (например, "universe" и "university" считаются одинаковыми), культурные различия в нормализации (например, "tröjan" и "trojan" в шведском) и проблему начальной загрузки для TF-IDF в новых языках. Для решения используется конфигурируемый XML-файл с языковыми настройками и грамматическими паттернами.
Комментарии (12)
- Обсуждение показало, что Marginalia не только индексирует, но и предоставляет API и поисковые виджеты для сторонних проектов.
- Участники обсудили возможность интеграции Marginalia в качестве поискового бэкенда для сайтов-агрегаторов, подобно тому, как HN использует Algolia.
- Разработчик Marginalia упомянул, что работает над фильтрацией по доменам и скоро выпустит публичный API.
- Также обсуждались детали реализации: RDRPOSTagger используется для POS-теггинга, но с оптимизациями, чтобы ускорить обработку.
- Участники отметили, что Marginalia — это не только поисковый движок, но и инструмент для поиска по собственным закладкам и комментариям.
BERT is just a single text diffusion step 🔥 Горячее
Недавно автор обнаружил, что дискретная языковая диффузия — это просто обобщение masked language modeling (MLM), которое используется в BERT с 2018 года. Gemini Diffusion от Google DeepMind генерирует текст, постепенно уточняя случайный шум, в отличие от традиционных GPT-стиль моделей, создающих текст слово за словом. Автор задался вопросом, можно ли дообучить BERT-подобную модель для генерации текста, и провел эксперимент для проверки этой концепции.
Архитектура Transformer изначально была encoder-decoder моделью, но в 2018 году разделилась на две ветви: encoder-only (BERT-style, двунаправленные) и decoder-only (GPT-style, авторегрессивные). Диффузионные модели для текста применяют принципы, аналогичные обработке изображений, но вместо добавления шума используют маскирование токенов. На прямом процессе постепенно увеличивается количество замаскированных токенов, а на обратном — модель учится восстанавливать исходный текст, предсказывая токены на различных этапах маскирования.
Комментарии (102)
- В 2021 году в статье arXiv:2107.03006 впервые отметили, что маскирование и диффузия текста фактически реализуют один и тот же процесс, и с тех пор моделирующие стороны ведут дискуссию о том, какой из них «настоящий» диффузионный процесс.
- Сторонники диффузии текста утверждают, что она более биологически правдоподобна, потому что человек, формулируя мысль, одновременно формулирует и слова, в то время как автопрегрессивные модели оперируют токенами последовательно, что якобы не соответствует тому, как работает мозг.
- Сторонники же автопрегрессивных моделей отвечают, что в действительности и люди, и модели делают одно и то же, и что внутреннее представление мысли не является дискретным, и потому нет никакой разницы между последовательным и диффузионным подходами.
- Сторонники диффузии текста также утверждают, что если мы хотим, чтобы модель могла бы редактировать или дополнять текст, то она должна уметь удалять и вставлять токены, что невозможно в рамках автопрегрессивного подхода.
- Сторонники автопрегрессивных моделей отвечают, что в действительности диффузионные модели не могут обучаться стабильно без помощи автопрегрессивного механизма, и что в конце концов, оба подхода требуют одни и те же вычислительные и временные затраты, и что поэтому вопрос остается открытым, какой подход лучше подходит для генерации текста.
LLMs are getting better at character-level text manipulation
Революция в ИИ: языковые модели учатся работать с отдельными символами
Современные модели ИИ, такие как GPT-5 или Claude 4.5, демонстрируют значительный прогресс в обработке текста на символьном уровне. В отличие от своих предшественников, они научились точно манипулировать отдельными символами — например, заменять букву "r" на "l" в предложениях и наоборот, что раньше было серьезной проблемой. Это стало возможным благодаря более совершенной архитектуре, которая лучше справляется с токенизацией, несмотря на то, что текст разбивается на токены (которые могут соответствовать целым словам или их частям).
Ключевые улучшения включают точный подсчет символов, включая сложные случаи вроде подсчета букв "r" в слове "strawberry", где раньше модели ошибались. Теперь даже компактные модели, такие как GPT-5 Nano, справляются с этой задачей. Более того, они успешно решают и более сложные задачи, такие как декодирование текста, зашифрованного с помощью Base64 и ROT13 (или его вариаций, как ROT20). Например, когда им дают строку в Base64, соответствующую тексту "Hi, how are you doing? Do you understand the cipher?", модели способны декодировать и ответить на нее осмысленно.
Этот прогресс особенно важен для задач, требующих работы с отдельными символами, таких как парсинг, декодирование или генерация текста с определенными условиями. Теперь ИИ может надежно использоваться в сценариях, где критически важна точность на уровне символа, а не только на уровне слов или предложений.
Комментарии (77)
- LLM-ы продолжают «проверять» на задачах, для которых они не были разработаны (подсчет символов, разбор слов, игра в Quartiles), что вызывает дискуссии о ценности и ограничениях моделей.
- Пользователи отмечают, что модели не могут подсчитать количество символов или применять детерминированные алгоритмы, но в то же время признают, что LLM не предназначены для таких задач.
- Некоторые участники обсуждения выдвигают идею, что вместо того, чтобы «тестировать» модели на их способности выполнять такие задачи, следует разработать инструменты, которые могли бы выполнять такие операции, если это необходимо.
- Обсуждение также затрагивает вопрос о том, что именно является «врагом» в таких ситуациях: ограничения модели, их обучение или ожидания пользователей.
A History of Large Language Models
TL;DR
Статья представляет собой глубокий анализ эволюции идей, лежащих в основе современных LLM. От распределённых представлений и трансформеров до предобучения и масштабируемости. Автор прослеживает путь от идей 1980-х годов до современных моделей, подчеркивая, что прогресс был не линейным, а скорее серией прыжков, сделанных возможными благодаря вычислительной мощности и объёму данных. Он также подчеркивает, что многие ключевые идеи были предвосхищены десятилетиями раньше, но не были реализованы до недавнего времени из-за ограничений в вычислениях. В конце он размышляет о том, что следующий прыжок может быть связан с генеративностью и способностью моделей к обобщению, и что мы можем быть на пороге следующего качественного скачка.
Основные идеи и факты:
- Распределённые представления и трансформер как центральные идеи, которые были предвосхищены в 1980-х годах, но не могли быть реализованы до недавнего времени из-за ограничений в вычислениях.
- Предобучение и масштабируемость как ключевые факторы, которые позволили LLM достичь их современного уровня.
- Attention is all you need - это не только архитектура, но и философия, которая подчеркивает важность масштабируемости и эффективного использования вычислительных ресурсов.
- Масштабируемость и предобучение как два кита, на которых стоит современный успех LLM.
Комментарии (17)
- Обсуждение подчеркнуло, что ранние LLM-архитектуры (GPT-1, GPT-2) часто упускаются из виду, хотя именно они положили начало современному направлению.
- Участники отметили, что статья недооценивает значение BERT как промежуточного этапа, несмотря на его влияние на многочисленные бенчмарки и задачи.
- Сообщество отметило, что LLM не столько «решили» задачи, сколько стали вычислять вероятности последовательностей, и это вызвало скепсис в отношении заявлений о приближении к AGI.
- Была затронута тема, что вместо специализированных моделей классификации или регрессии, которые раньше использовали предобученные репрезентации, теперь используют LLM как универсальный инструмент, и это вызывает вопросы о том, как именно LLM влияют на поле AI-исследований.
Why do LLMs freak out over the seahorse emoji? 🔥 Горячее 💬 Длинная дискуссия
Крупные языковые модели уверенно утверждают, что эмодзи морского конька существует, хотя на самом деле его нет в Unicode. Это связано с тем, что в обучающих данных множество людей ошибочно вспоминают этот эмодзи — в соцсетях даже есть мемы и обсуждения на эту тему. Модели, как и люди, обобщают: раз есть другие морские эмодзи, логично предположить, что и морской конёк тоже должен быть.
При анализе через «логит-линзу» видно, как модель постепенно приходит к токену «horse»: сначала появляются случайные предсказания, затем — связанные с морем или животными, и в итоге — устойчивое повторение «horse». Это показывает, что модель не просто галлюцинирует, а строит последовательное, но ошибочное рассуждение. Практический вывод: даже уверенные ответы ИИ могут быть основаны на коллективных заблуждениях из данных.
Комментарии (320)
- Обсуждение фокусируется на феномене, когда языковые модели (LLM) демонстрируют уверенность в существовании эмодзи морского конька, которого на самом деле нет в стандарте Unicode.
- Поведение моделей варьируется: одни сразу дают правильный ответ, другие впадают в циклы самокоррекции или "спирали", генерируя поток неверных предположений и оправданий.
- Участники проводят параллели с "эффектом Манделы" — коллективным ложным воспоминанием, отмечая, что многие люди также ошибочно уверены в существовании этого эмодзи.
- В качестве причин называются тренировка на текстах людей, которые ошибочно верят в его существование, и проблемы с токенизацией, когда модель не может корректно выразить внутреннее представление.
- Некоторые отмечают, что точная формулировка запроса (например, вопрос о конкретном коде Unicode) помогает моделям дать корректный ответ с первого раза.
Lightweight, highly accurate line and paragraph detection
Новая модель на основе графовых сверточных сетей (GCN) решает задачу одновременного обнаружения строк и абзацев в документах. Вместо традиционных методов, которые обрабатывают эти элементы отдельно, подход объединяет их в единую структуру, где узлы графа представляют текстовые блоки, а связи отражают пространственные и семантические отношения. Это позволяет точнее определять логическую структуру документа, учитывая контекст и взаимодействие между строками и абзацами.
Модель демонстрирует высокую точность на стандартных наборах данных, превосходя предыдущие методы как в сегментации строк, так и в группировке их в абзацы. Ключевое преимущество — способность обрабатывать сложные макеты с перекрывающимися или разнородными блоками текста. Практический вывод: такой подход может значительно улучшить автоматическое извлечение информации из сканированных документов и PDF, сокращая потребность в ручной разметке.
Комментарии (23)
- Обсуждаются сложности автоматического извлечения структурированного текста (абзацы, колонки, таблицы) из PDF, особенно с рукописными документами и изображениями.
- Упоминается, что подобная технология (анализ кластеров для группировки слов) уже давно используется в iOS для функции масштабирования PDF по тапу.
- Участники делятся проблемами и неудачным опытом с существующими инструментами для преобразования PDF в текст.
- Поднимается вопрос о необходимости улучшения читаемого режима в браузерах и более надежных решений для классификации страниц с таблицами.
- Предлагаются альтернативные решения с использованием ИИ (Gemini для OCR) и отмечается ироничность того, что сама научная работа об улучшении PDF доступна в формате PDF.
Taco Bell AI Drive-Thru
Taco Bell vs ИИ: 0:1
ИИ-голосовые кассы в 500+ драйв-турах не справились с акцентами, «двойным соусом без кинзы» и троллингом. Клиенты жаловались на глюки и устроили флешмоб абсурдных заказов. WSJ зафиксировал: технологию «пересматривают», но в дорожной карте она всё ещё значится.
Комментарии (146)
- Пользователи спорят, стоит ли внедрять ИИ в драйв- thru: кто-то хвалит точность и вежливость, кто-то ругает баги в духе «18 000 стаканов воды».
- Основные претензии: очереди мешают трафику, машины пустятся на холостом, а заказы через ИИ легко троллить.
- Многие предпочитают мобильный предзаказ: быстрее, параллельно и без разговоров, но часть клиентов не хочет ставить десятки «шпионских» приложений.
- Критики считают запуск в 500 точках необдуманным: не хватает A/B-тестов, sanity-checks и учёта импульсивных покупателей, которым важен именно «захотел-сразу-в-очереди».
- Вывод: ИИ-приёмка пока сыровата, но масштабные провалы дают ценные уроки и ускоряют доработку технологии.
The Annotated Transformer (2022)
Суть статьи в двух словах
- Transformer — архитектура нейросети, где всё держится на механизме внимания; свёртки и рекуррентные слои не нужны.
- Ключевые компоненты:
- Multi-Head Attention — параллельные «головы» вычисляют взвешенные суммы входов.
- Positional Encoding — добавляет информацию о порядке токенов.
- Feed-Forward — простые линейные слои между блоками внимания.
- Тренировка:
- Оптимизатор Adam с тёплым стартом и дропаутом.
- Label Smoothing (коэффициент 0.1) уменьшает переобучение.
- Результаты:
- На WMT 2014 английский↔немецкий BLEU 28.4 (новый SOTA).
- Обучение на 8 GPU занимает 12 часов до сходимости.
- Вывод: «Внимание — всё, что нужно»; модель легко масштабируется и обучается параллельно.
Комментарии (11)
- @srush напомнил, что статья была переписана командой авторов, и поделился ссылками на свои материалы по CUDA и тензорам.
- Участники хвалят качество объяснения attention и детализацию визуализации.
- @ActorNightly спорит, что термины Key/Query/Value не несут особого смысла, так как матрицы произвольны.
- @gchadwick возражает, подчёркивая разные роли K, Q, V при декодировании.
- @roadside_picnic предлагает смотреть на attention как на kernel smoothing, что делает его интуитивнее.
SpaCy: Industrial-Strength Natural Language Processing (NLP) in Python
spaCy — промышленная библиотека NLP на Python.
Быстрая, точная, поддерживает 70+ языков.
Основное
- Установка
pip install -U spacy python -m spacy download en_core_web_sm - Быстрый старт
import spacy nlp = spacy.load("en_core_web_sm") doc = nlp("Apple is looking at buying U.K. startup for $1 billion") for ent in doc.ents: print(ent.text, ent.label_)
Возможности
- токенизация, POS-теги, синтаксис, NER
- готовые модели CNN/Transformer
- обучение и дообучение
- интеграция с PyTorch, Transformers, FastAPI
- GPU/Apple Metal
Примеры
- NER: выделение имён, дат, денег
- Matcher: поиск паттернов
- Projects: end-to-end пайплайны
- spaCy LLM: LLM-интеграция без кода
Ресурсы
Комментарии (40)
- В эпоху LLM традиционный NLP (SpaCy) всё ещё нужен: дешевле, быстрее, работает на обычном железе и не требует постоянной оплаты провайдеру.
- Участники хвалят SpaCy за отличный API, скорость, надёжность NER и удобство пайплайнов; активно используют в enterprise, RAG-метриках и даже на Raspberry Pi.
- Некоторые задачи (классификация, сентимент) LLM решают хуже и дороже, поэтому возвращаются к дискриминативным моделям.
- Сообщество отмечает, что проект немного сократился (v4 задерживается), но библиотека по-прежнему поддерживается и считается недооценённой.
Making LLMs Cheaper and Better via Performance-Efficiency Optimized Routing
Идея: вместо одного огромного LLM использовать роутер, который для каждого запроса выбирает наиболее подходящую по размеру и качеству модель из набора.
Проблема: GPT-4/5 дороги и не всегда нужны; мелкие модели дешевле, но хуже.
Решение: обучить роутер-LLM прогнозировать, какая модель справится с задачей с минимальными затратами и заданным порогом качества.
Методика:
- Собрали 30 задач NLP (перевод, суммаризация, код и т.д.).
- Для каждой задачи подготовили набор моделей разных размеров (от 1.3 B до 70 B параметров).
- Обучили роутер на 100k примеров, где вход — запрос, выход — выбор модели + оценка качества.
- Использовали Pareto-оптимизацию: минимизировать стоимость при фиксированном качестве.
Результаты:
- При том же качестве, что у GPT-4, роутер сокращает стоимость в 4–6 раз.
- На 50 % запросов достаточно модели 7 B вместо 70 B.
- Роутер добавляет <1 мс задержки (незаметно).
Вывод: дешевле и быстрее держать «зоопарк» моделей + роутер, чем один сверхбольшой LLM.
Комментарии (21)
- Обсуждают «роутинг» запросов между разными LLM вместо одной большой модели: берут 70 % примеров, смотрят, какая модель лучше справляется с каждым кластером, и на оставшиеся 30 % уже маршрутизируют.
- Идея пока простая (эмбеддинг + выбор лучшей по истории), но сообщество считает её неизбежным следующим шагом после CoT и способом дешевле масштабироваться.
- Критика: не учитывают латентность роутера, могут промахнуться со «сложными» запросами, выглядящими простыми; GPT-5 редко включает reasoning-модель.
- Некоторые сравнивают с NotDiamond и другими стартапами, а также с «облачной» эволюцией: сначала дорого, потом дешевеет.
- Видение будущего — AGI как ансамбль специализированных модулей, которые можно миксовать под задачу пользователя.
GPT-5: "How many times does the letter b appear in blueberry?" 🔥 Горячее 💬 Длинная дискуссия
—
Комментарии (234)
- GPT-5 без «режима рассуждений» ошибочно считает количество букв «b» в слове blueberry (выдаёт 2 вместо 3).
- Пользователи связывают ошибку с особенностями токенизации и тем, что модель «не видит» отдельные символы.
- При явном включении «режима рассуждений» или в других моделях (Claude, Qwen3, GPT-4o) ответ получается верным.
- Обсуждение подчёркивает: быстрый «дешёвый» вывод может быть неточным, а автоматический роутер пока плохо распознаёт задачи, требующие точного перебора символов.