Тег: #law — Hacker News Digest

Neural audio codecs: how to get audio into LLMs (kyutai.org) 🔥 Горячее

Текущие речевые LLM работают как обертка: преобразуют речь в текст, обрабатывают его и затем синтезируют ответ обратно в речь, что не позволяет улавливать нюансы интонации, сарказма или эмоций. Даже передовые модели вроде Gemini или ChatGPT с продвинутым голосовым режимом не могут ответить на вопрос о высоте голоса, демонстрируя отставание речевых моделей от текстовых. Проблема в том, что за одну секунду аудио содержится десятки тысяч выборок, в отличие от нескольких слов в тексте, что делает обработку аудио значительно сложнее.

Решением являются нейроаудио-кодеки, такие как Mimi от Kyutai, которые сжимают аудио в более управляемые дискретные токены, аналогично токенизации текста. Вместо предсказания аудио выборка за выборкой, как в ранних моделях вроде WaveNet, кодеки преобразуют непрерывные значения в 256 дискретных "вёдер" с помощью μ-law алгоритма. Этот подход позволяет LLM обрабатывать аудио как последовательность токенов, предсказывать продолжение и затем декодировать обратно в аудио, открывая путь к настоящему пониманию речи.

by karimf • 21 октября 2025 г. в 12:55 • 410 points

Оригинал • HN

#llm #audio-processing #neural-networks #tokenization #audio-codecs #wavenet #law #kyutai #tts #speech-recognition

Комментарии (115)

Обсуждение охватывает широкий спектр тем: от токенизации аудио до фундаментальных вопросов о том, как моделируются речь и звук, и почему это важно для будущего ИИ.
Участники обсуждают, что вместо попыток заставить модели распознавать и генерировать речь, мы должны сосредоточиться на создании моделей, которые могут работать с непрерывными сигналами и, таким образом, избегая необходимости в токенизации аудио.
Обсуждается, что вместо того, чтобы полагаться на существующие аудио кодеки, такие как MP3, мы должны развивать нейрональные кодеки, которые могут быть обучены вместе с моделью и, таким образом, позволяя ей напрямую работать с компактным, дискретным представлением аудио.
Участники также обсуждают, что вместо того, чтобы пытаться обучить модель на транскрибированном тексте, мы должны использовать аудио-ориентированные данные, которые включают в себе всю информацию, которая теряется при транскрибции. Это может включать в себе обучение модели на транскрибированном тексте, который может быть использован для тренировки TTS-моделей.

China Is Run by Engineers. America Is Run by Lawyers (freakonomics.com)

Китай и США, несмотря на схожие черты — динамичность, готовность к риску и ориентацию на будущее, — кардинально различаются по структуре управления. Китаем руководят инженеры, что фокусирует страну на строительстве, инфраструктуре и технологическом прогрессе. США же управляются юристами, что ведёт к преобладанию правовых споров, регуляторных барьеров и замедлению реализации проектов.

Это различие отражается в подходах к инновациям и экономическому развитию: Китай быстро внедряет масштабные инициативы, тогда как американская система часто тормозится судебными разбирательствами и бюрократией. Практический вывод: эффективность управления может зависеть от профессионального бэкграунда элиты, а не только от политических институтов.

by m-hodges • 28 сентября 2025 г. в 20:06 • 112 points

Оригинал • HN

#engineering #infrastructure #government #bureaucracy #economics #law #finance

Комментарии (107)

Участники обсуждают преобладание юристов и финансистов в управлении США, связывая это с проблемами "финансиализации" и бюрократии, в то время как Китай, по мнению некоторых, управляется инженерами с фокусом на масштабное строительство и инфраструктуру.
Поднимается проблема возраста политиков в США (на примере 95-летнего сенатора), которая рассматривается как угроза эффективности управления, с призывом ввести возрастные ограничения.
Критикуется система, в которой множество инстанций имеет право вето, что, по мнению части комментаторов, парализует процесс строительства и принятия решений в США.
Обсуждается роль капитализма и неолиберализма в переориентации экономики с производительной деятельности на ренту и финансовые спекуляции, что приводит к оттоку инженеров в финансы.
Высказываются мнения, что фундаментальная проблема — не профессия управленцев, а коррупция, кумовство и система, поощряющая лояльность, а не компетентность.