The Parallel Search API
Parallel Search API — это веб-инструмент поиска, созданный специально для ИИ-агентов, а не для людей. В отличие от традиционных поисковых систем, оптимизированных для кликов и навигации, Parallel фокусируется на семантических целях, релевантности токенов, информационно-плотных выдержках и однократном разрешении запросов. Это позволяет предоставлять наиболее релевантные веб-данные эффективнее, чем стандартные API поиска.
Согласно тестам, Parallel значительно превосходит существующие API по точности, особенно для сложных многошаговых запросов. На тесте BrowseComp он достигает 48% точности против 1% у GPT-4. Система снижает количество необходимых запросов, уменьшая задержки, стоимость и повышая точность за счет предоставления более информационно-плотных токенов за один вызов. Это позволяет ИИ-агентам выполнять задачи эффективнее с меньшим количеством циклов и общей стоимостью.
Комментарии (44)
- Пользователи обсуждают, что API-интерфейс Parallel AI предлагает 20 000 бесплатных запросов, но при попытке воспользоваться ими баланс оказывается недостаточным, что вызывает раздражение.
- Участники спора оценивают, что ценообразование и условия использования сервиса не прозрачны, и что это может быть нечестным маркетингом.
- Некоторые комментаторы поднимают вопрос о том, что, возможно, Parallel AI не предоставляет действительно уникальную ценность, поскольку они просто используют модель, которая может быть запущена локально.
- Обсуждается, что будущее поиска может лежать в агентных системах, но при этом важно, чтобы API был доступен и не требовал бы дорогих вычислений.
- Участники также обсуждают, что важно, чтобы API был доступен и не требовал бы дорогих вычислений, и что будущее поиска может лежать в агентных системах.
Neural audio codecs: how to get audio into LLMs 🔥 Горячее
Текущие речевые LLM работают как обертка: преобразуют речь в текст, обрабатывают его и затем синтезируют ответ обратно в речь, что не позволяет улавливать нюансы интонации, сарказма или эмоций. Даже передовые модели вроде Gemini или ChatGPT с продвинутым голосовым режимом не могут ответить на вопрос о высоте голоса, демонстрируя отставание речевых моделей от текстовых. Проблема в том, что за одну секунду аудио содержится десятки тысяч выборок, в отличие от нескольких слов в тексте, что делает обработку аудио значительно сложнее.
Решением являются нейроаудио-кодеки, такие как Mimi от Kyutai, которые сжимают аудио в более управляемые дискретные токены, аналогично токенизации текста. Вместо предсказания аудио выборка за выборкой, как в ранних моделях вроде WaveNet, кодеки преобразуют непрерывные значения в 256 дискретных "вёдер" с помощью μ-law алгоритма. Этот подход позволяет LLM обрабатывать аудио как последовательность токенов, предсказывать продолжение и затем декодировать обратно в аудио, открывая путь к настоящему пониманию речи.
Комментарии (115)
- Обсуждение охватывает широкий спектр тем: от токенизации аудио до фундаментальных вопросов о том, как моделируются речь и звук, и почему это важно для будущего ИИ.
- Участники обсуждают, что вместо попыток заставить модели распознавать и генерировать речь, мы должны сосредоточиться на создании моделей, которые могут работать с непрерывными сигналами и, таким образом, избегая необходимости в токенизации аудио.
- Обсуждается, что вместо того, чтобы полагаться на существующие аудио кодеки, такие как MP3, мы должны развивать нейрональные кодеки, которые могут быть обучены вместе с моделью и, таким образом, позволяя ей напрямую работать с компактным, дискретным представлением аудио.
- Участники также обсуждают, что вместо того, чтобы пытаться обучить модель на транскрибированном тексте, мы должны использовать аудио-ориентированные данные, которые включают в себе всю информацию, которая теряется при транскрибции. Это может включать в себе обучение модели на транскрибированном тексте, который может быть использован для тренировки TTS-моделей.
Should LLMs just treat text content as an image?
Исследователи обсуждают концепцию "оптического сжатия" — представления текста как изображений для обработки в больших языковых моделях. Согласно статье, DeepSeek продемонстрировал, что из одного токена изображения можно извлечь 10 текстовых токенов с точностью почти 100%, что делает внутреннее представление изображений в моделях в 10 раз эффективнее текстового. Этот подход уже используется некоторыми компаниями и open-source проектами, хотя не является штатным режимом работы существующих моделей.
Почему это может работать? Текстовые токены дискретны и ограничены (около 50 000), тогда как токены изображений непрерывны и могут выражать гораздо больше информации. Внутри модели текстовые токены преобразуются в неэффективное представление, в то время как изображение уже содержит компактную форму данных. Более того, обработка текста как изображений ближе к тому, как работает человеческий мозг, воспринимающий текст визуально. Однако автор отмечает, что многие теоретически перспективные идеи в ИИ не работают на практике, а обучение новых моделей на тексте в виде изображений представляет собой сложную задачу.
Комментарии (92)
- Обсуждение вращается вокруг идеи преобразования текста в изображение и обратно, включая OCR, токенизацию и форматирование, и как это влияет на обучение моделей.
- Участники обсуждают, что преобразование текста в изображение может быть полезно для обучения моделей, но также может привести к потере информации.
- Также обсуждается, что визуальные токены могут быть более информативны, чем текстовые токены, но также может привести к потере контекста.
- Участники также обсуждают, что визуальные токены могут быть более устойчивы к шуму и искажениям, но также могут быть более чувствительны к разрешению и форматированию.
What GPT-OSS leaks about OpenAI's training data 🔥 Горячее
Анализ весов открытой модели GPT-oss от OpenAI позволяет раскрыть детали обучающих данных, которые компания тщательно скрывает. Исследование эмбеддингов токенизатора o200k выявило группу из 936 токенов с крайне низкой L2-нормой — вероятно, они не использовались при обучении и были «подавлены» decay-регуляризацией. Среди них — служебные токены, байты Unicode и аномалии вроде токена 20373 (последовательность байтов, означающая «пограничные ворота» на мандаринском). Эта группа может помочь оценить параметры инициализации модели и общее число шагов градиентного спуска.
В «хвосте» распределения с высокой нормой обнаружились токены, связанные с кодом и логическими рассуждениями (например, «accordingly», «code», «settings»), что указывает на финальный этап обучения с упором на программирование. Но самое интересное — не-ASCII токены с высокой нормой: многие оказались фразами с спамных сайтов, порнографических ресурсов и платформ азартных игр на китайском языке («这里只有精品», «天天好彩票», «一本道高清无码»). Также найдены токены, связанные с китайским национализмом («铁血网»), что неожиданно для OpenAI с учётом геополитического контекста. Это свидетельствует о том, что в обучающие данные попал низкокачественный и политизированный контент, а токенизатор зафиксировал его перепредставленность.
Комментарии (79)
- Обсуждается использование "глитч-токенов" для идентификации моделей ИИ и их уязвимостей через анализ реакции на специфические токены.
- Подвергается сомнению утверждение о тренировке GPT-5 на данных с взрослых сайтов; скорее, фразы попали в данные через GitHub и другие опосредованные источники.
- Анализируется происхождение странных токенов (например, "xadder") как возможных опечаток, названий инструментов или артефактов из технических областей.
- Поднимается вопрос о реверс-инжиниринге закрытых моделей (Claude, GPT) для изучения их тренировочных данных и смещений, введенных до и после RLHF.
- Высказываются мнения о необходимости открытости и регулирования коммерческих моделей ИИ, включая открытие исходных кодов и данных, а также этические аспекты использования публичных данных.
GPT-5: "How many times does the letter b appear in blueberry?" 🔥 Горячее 💬 Длинная дискуссия
—
Комментарии (234)
- GPT-5 без «режима рассуждений» ошибочно считает количество букв «b» в слове blueberry (выдаёт 2 вместо 3).
- Пользователи связывают ошибку с особенностями токенизации и тем, что модель «не видит» отдельные символы.
- При явном включении «режима рассуждений» или в других моделях (Claude, Qwen3, GPT-4o) ответ получается верным.
- Обсуждение подчёркивает: быстрый «дешёвый» вывод может быть неточным, а автоматический роутер пока плохо распознаёт задачи, требующие точного перебора символов.