Neural audio codecs: how to get audio into LLMs 🔥 Горячее
Текущие речевые LLM работают как обертка: преобразуют речь в текст, обрабатывают его и затем синтезируют ответ обратно в речь, что не позволяет улавливать нюансы интонации, сарказма или эмоций. Даже передовые модели вроде Gemini или ChatGPT с продвинутым голосовым режимом не могут ответить на вопрос о высоте голоса, демонстрируя отставание речевых моделей от текстовых. Проблема в том, что за одну секунду аудио содержится десятки тысяч выборок, в отличие от нескольких слов в тексте, что делает обработку аудио значительно сложнее.
Решением являются нейроаудио-кодеки, такие как Mimi от Kyutai, которые сжимают аудио в более управляемые дискретные токены, аналогично токенизации текста. Вместо предсказания аудио выборка за выборкой, как в ранних моделях вроде WaveNet, кодеки преобразуют непрерывные значения в 256 дискретных "вёдер" с помощью μ-law алгоритма. Этот подход позволяет LLM обрабатывать аудио как последовательность токенов, предсказывать продолжение и затем декодировать обратно в аудио, открывая путь к настоящему пониманию речи.
Комментарии (115)
- Обсуждение охватывает широкий спектр тем: от токенизации аудио до фундаментальных вопросов о том, как моделируются речь и звук, и почему это важно для будущего ИИ.
- Участники обсуждают, что вместо попыток заставить модели распознавать и генерировать речь, мы должны сосредоточиться на создании моделей, которые могут работать с непрерывными сигналами и, таким образом, избегая необходимости в токенизации аудио.
- Обсуждается, что вместо того, чтобы полагаться на существующие аудио кодеки, такие как MP3, мы должны развивать нейрональные кодеки, которые могут быть обучены вместе с моделью и, таким образом, позволяя ей напрямую работать с компактным, дискретным представлением аудио.
- Участники также обсуждают, что вместо того, чтобы пытаться обучить модель на транскрибированном тексте, мы должны использовать аудио-ориентированные данные, которые включают в себе всю информацию, которая теряется при транскрибции. Это может включать в себе обучение модели на транскрибированном тексте, который может быть использован для тренировки TTS-моделей.
China Is Run by Engineers. America Is Run by Lawyers
Китай и США, несмотря на схожие черты — динамичность, готовность к риску и ориентацию на будущее, — кардинально различаются по структуре управления. Китаем руководят инженеры, что фокусирует страну на строительстве, инфраструктуре и технологическом прогрессе. США же управляются юристами, что ведёт к преобладанию правовых споров, регуляторных барьеров и замедлению реализации проектов.
Это различие отражается в подходах к инновациям и экономическому развитию: Китай быстро внедряет масштабные инициативы, тогда как американская система часто тормозится судебными разбирательствами и бюрократией. Практический вывод: эффективность управления может зависеть от профессионального бэкграунда элиты, а не только от политических институтов.
Комментарии (107)
- Участники обсуждают преобладание юристов и финансистов в управлении США, связывая это с проблемами "финансиализации" и бюрократии, в то время как Китай, по мнению некоторых, управляется инженерами с фокусом на масштабное строительство и инфраструктуру.
- Поднимается проблема возраста политиков в США (на примере 95-летнего сенатора), которая рассматривается как угроза эффективности управления, с призывом ввести возрастные ограничения.
- Критикуется система, в которой множество инстанций имеет право вето, что, по мнению части комментаторов, парализует процесс строительства и принятия решений в США.
- Обсуждается роль капитализма и неолиберализма в переориентации экономики с производительной деятельности на ренту и финансовые спекуляции, что приводит к оттоку инженеров в финансы.
- Высказываются мнения, что фундаментальная проблема — не профессия управленцев, а коррупция, кумовство и система, поощряющая лояльность, а не компетентность.