Тег: #tokenization — Hacker News Digest

The Parallel Search API (parallel.ai)

Parallel Search API — это веб-инструмент поиска, созданный специально для ИИ-агентов, а не для людей. В отличие от традиционных поисковых систем, оптимизированных для кликов и навигации, Parallel фокусируется на семантических целях, релевантности токенов, информационно-плотных выдержках и однократном разрешении запросов. Это позволяет предоставлять наиболее релевантные веб-данные эффективнее, чем стандартные API поиска.

Согласно тестам, Parallel значительно превосходит существующие API по точности, особенно для сложных многошаговых запросов. На тесте BrowseComp он достигает 48% точности против 1% у GPT-4. Система снижает количество необходимых запросов, уменьшая задержки, стоимость и повышая точность за счет предоставления более информационно-плотных токенов за один вызов. Это позволяет ИИ-агентам выполнять задачи эффективнее с меньшим количеством циклов и общей стоимостью.

by lukaslevert • 06 ноября 2025 г. в 17:04 • 108 points

Оригинал • HN

#api #search #llm #parallel #gpt-4 #browsecomp #tokenization

Комментарии (44)

Пользователи обсуждают, что API-интерфейс Parallel AI предлагает 20 000 бесплатных запросов, но при попытке воспользоваться ими баланс оказывается недостаточным, что вызывает раздражение.
Участники спора оценивают, что ценообразование и условия использования сервиса не прозрачны, и что это может быть нечестным маркетингом.
Некоторые комментаторы поднимают вопрос о том, что, возможно, Parallel AI не предоставляет действительно уникальную ценность, поскольку они просто используют модель, которая может быть запущена локально.
Обсуждается, что будущее поиска может лежать в агентных системах, но при этом важно, чтобы API был доступен и не требовал бы дорогих вычислений.
Участники также обсуждают, что важно, чтобы API был доступен и не требовал бы дорогих вычислений, и что будущее поиска может лежать в агентных системах.

Neural audio codecs: how to get audio into LLMs (kyutai.org) 🔥 Горячее

Текущие речевые LLM работают как обертка: преобразуют речь в текст, обрабатывают его и затем синтезируют ответ обратно в речь, что не позволяет улавливать нюансы интонации, сарказма или эмоций. Даже передовые модели вроде Gemini или ChatGPT с продвинутым голосовым режимом не могут ответить на вопрос о высоте голоса, демонстрируя отставание речевых моделей от текстовых. Проблема в том, что за одну секунду аудио содержится десятки тысяч выборок, в отличие от нескольких слов в тексте, что делает обработку аудио значительно сложнее.

Решением являются нейроаудио-кодеки, такие как Mimi от Kyutai, которые сжимают аудио в более управляемые дискретные токены, аналогично токенизации текста. Вместо предсказания аудио выборка за выборкой, как в ранних моделях вроде WaveNet, кодеки преобразуют непрерывные значения в 256 дискретных "вёдер" с помощью μ-law алгоритма. Этот подход позволяет LLM обрабатывать аудио как последовательность токенов, предсказывать продолжение и затем декодировать обратно в аудио, открывая путь к настоящему пониманию речи.

by karimf • 21 октября 2025 г. в 12:55 • 410 points

Оригинал • HN

#llm #audio-processing #neural-networks #tokenization #audio-codecs #wavenet #law #kyutai #tts #speech-recognition

Комментарии (115)

Обсуждение охватывает широкий спектр тем: от токенизации аудио до фундаментальных вопросов о том, как моделируются речь и звук, и почему это важно для будущего ИИ.
Участники обсуждают, что вместо попыток заставить модели распознавать и генерировать речь, мы должны сосредоточиться на создании моделей, которые могут работать с непрерывными сигналами и, таким образом, избегая необходимости в токенизации аудио.
Обсуждается, что вместо того, чтобы полагаться на существующие аудио кодеки, такие как MP3, мы должны развивать нейрональные кодеки, которые могут быть обучены вместе с моделью и, таким образом, позволяя ей напрямую работать с компактным, дискретным представлением аудио.
Участники также обсуждают, что вместо того, чтобы пытаться обучить модель на транскрибированном тексте, мы должны использовать аудио-ориентированные данные, которые включают в себе всю информацию, которая теряется при транскрибции. Это может включать в себе обучение модели на транскрибированном тексте, который может быть использован для тренировки TTS-моделей.

Should LLMs just treat text content as an image? (seangoedecke.com)

Исследователи обсуждают концепцию "оптического сжатия" — представления текста как изображений для обработки в больших языковых моделях. Согласно статье, DeepSeek продемонстрировал, что из одного токена изображения можно извлечь 10 текстовых токенов с точностью почти 100%, что делает внутреннее представление изображений в моделях в 10 раз эффективнее текстового. Этот подход уже используется некоторыми компаниями и open-source проектами, хотя не является штатным режимом работы существующих моделей.

Почему это может работать? Текстовые токены дискретны и ограничены (около 50 000), тогда как токены изображений непрерывны и могут выражать гораздо больше информации. Внутри модели текстовые токены преобразуются в неэффективное представление, в то время как изображение уже содержит компактную форму данных. Более того, обработка текста как изображений ближе к тому, как работает человеческий мозг, воспринимающий текст визуально. Однако автор отмечает, что многие теоретически перспективные идеи в ИИ не работают на практике, а обучение новых моделей на тексте в виде изображений представляет собой сложную задачу.

by ingve • 21 октября 2025 г. в 06:10 • 153 points

Оригинал • HN

#llm #text-processing #image-processing #deepseek #ocr #tokenization #machine-learning #data-compression

Комментарии (92)

Обсуждение вращается вокруг идеи преобразования текста в изображение и обратно, включая OCR, токенизацию и форматирование, и как это влияет на обучение моделей.
Участники обсуждают, что преобразование текста в изображение может быть полезно для обучения моделей, но также может привести к потере информации.
Также обсуждается, что визуальные токены могут быть более информативны, чем текстовые токены, но также может привести к потере контекста.
Участники также обсуждают, что визуальные токены могут быть более устойчивы к шуму и искажениям, но также могут быть более чувствительны к разрешению и форматированию.

What GPT-OSS leaks about OpenAI's training data (fi-le.net) 🔥 Горячее

Анализ весов открытой модели GPT-oss от OpenAI позволяет раскрыть детали обучающих данных, которые компания тщательно скрывает. Исследование эмбеддингов токенизатора o200k выявило группу из 936 токенов с крайне низкой L2-нормой — вероятно, они не использовались при обучении и были «подавлены» decay-регуляризацией. Среди них — служебные токены, байты Unicode и аномалии вроде токена 20373 (последовательность байтов, означающая «пограничные ворота» на мандаринском). Эта группа может помочь оценить параметры инициализации модели и общее число шагов градиентного спуска.

В «хвосте» распределения с высокой нормой обнаружились токены, связанные с кодом и логическими рассуждениями (например, «accordingly», «code», «settings»), что указывает на финальный этап обучения с упором на программирование. Но самое интересное — не-ASCII токены с высокой нормой: многие оказались фразами с спамных сайтов, порнографических ресурсов и платформ азартных игр на китайском языке («这里只有精品», «天天好彩票», «一本道高清无码»). Также найдены токены, связанные с китайским национализмом («铁血网»), что неожиданно для OpenAI с учётом геополитического контекста. Это свидетельствует о том, что в обучающие данные попал низкокачественный и политизированный контент, а токенизатор зафиксировал его перепредставленность.

by fi-le • 05 октября 2025 г. в 18:28 • 313 points

Оригинал • HN

#openai #llm #machine-learning #training-data #tokenization #natural-language-processing #ai-models #github #rlhf #ai-ethics

Комментарии (79)

Обсуждается использование "глитч-токенов" для идентификации моделей ИИ и их уязвимостей через анализ реакции на специфические токены.
Подвергается сомнению утверждение о тренировке GPT-5 на данных с взрослых сайтов; скорее, фразы попали в данные через GitHub и другие опосредованные источники.
Анализируется происхождение странных токенов (например, "xadder") как возможных опечаток, названий инструментов или артефактов из технических областей.
Поднимается вопрос о реверс-инжиниринге закрытых моделей (Claude, GPT) для изучения их тренировочных данных и смещений, введенных до и после RLHF.
Высказываются мнения о необходимости открытости и регулирования коммерческих моделей ИИ, включая открытие исходных кодов и данных, а также этические аспекты использования публичных данных.

GPT-5: "How many times does the letter b appear in blueberry?" (bsky.app) 🔥 Горячее 💬 Длинная дискуссия

—

by minimaxir • 08 августа 2025 г. в 02:51 • 261 points

Оригинал • HN

#gpt-5 #gpt-4o #claude #qwen3 #bsky.app #nlp #tokenization #llm

Комментарии (234)

GPT-5 без «режима рассуждений» ошибочно считает количество букв «b» в слове blueberry (выдаёт 2 вместо 3).
Пользователи связывают ошибку с особенностями токенизации и тем, что модель «не видит» отдельные символы.
При явном включении «режима рассуждений» или в других моделях (Claude, Qwen3, GPT-4o) ответ получается верным.
Обсуждение подчёркивает: быстрый «дешёвый» вывод может быть неточным, а автоматический роутер пока плохо распознаёт задачи, требующие точного перебора символов.