Тег: #multimodal-ai — Hacker News Digest

Trying out Gemini 3 Pro with audio transcription and a new pelican benchmark (simonwillison.net)

Google выпустил Gemini 3 Pro, обновление модели, которое позволяет ей конкурировать с ведущими аналогами. Модель сохраняет базовые характеристики предыдущей версии (обрезание знаний в январе 2025 года), но предлагает улучшенную производительность. Gemini 3 Pro поддерживает до 1 миллиона входных токенов, может генерировать до 64 000 токенов и обладает мультимодальными возможностями для обработки текста, изображений, аудио и видео.

Согласно собственным тестам Google, Gemini 3 Pro незначительно превосходит Claude 4.5 Sonnet и GPT-5.1 по большинству стандартных бенчмарков. Модель стоит дороже, чем предыдущая версия, но остается дешевле конкурентов. В практическом тесте модель продемонстрировала сильные мультимодальные возможности, успешно обработав сложную таблицу с результатами тестов и создав подробный альтернативный текст для изображения.

by nabla9 • 18 ноября 2025 г. в 19:05 • 141 points

Оригинал • HN

#gemini-3-pro #gemini-3.5-pro #whisper #gpt-5.1 #claude-4.5-sonnet #transcription #audio-processing #summarization #multimodal-ai #benchmarking

Комментарии (47)

Обсуждение охватывает вопросы от транскрибирования и суммаризации длинных аудио-файлов до точности и стоимости, включая использование Whisper и Gemini 3.5 Pro, а также влияние стоимости на качество и доступность.
Участники обсуждают, какие модели лучше всего справляются с задачей транскрибирования и суммаризации, и какие инструменты лучше всего использовать для этой цели.
Также обсуждается, что в будущем может быть разработан единый стандарт для оценки моделей на такие задачи.
Участники также обсуждают, какие именно аспекты важны для журналистов и исследователей, и какие именно инструменты они используют для транскрибирования и суммаризации.

Ovi: Twin backbone cross-modal fusion for audio-video generation (github.com) 🔥 Горячее

В предоставленном фрагменте отсутствует содержательная информация о репозитории character-ai/Ovi. Это лишь навигационное меню и общие элементы интерфейса GitHub без описания самого проекта. Нет данных о функциональности, целях или особенностях Ovi.

Для создания содержательного пересказа требуется информация из README-файла или описания репозитория, которая отсутствует в данном фрагменте. Без этих деталей невозможно определить, представляет ли собой Ovi инструмент, библиотеку, приложение или что-то иное от character-ai.

by montyanderson • 22 октября 2025 г. в 19:42 • 300 points

Оригинал • HN

#generative-ai #deepfake #multimodal-ai #ai-ethics #ai-video-generation #github

Комментарии (110)

Обсуждение вращается вокруг быстрого прогресса в генеративном ИИ: отдельные инструменты сливаются в единое решение, и теперь можно запускать модели локально.
Участники обсуждают, как быстро ИИ-видео может дойти до «блокбастера» и как это повлияет на индустрию.
Поднимаются вопросы этики: deep-fake, влияние на детей, коммерческое использование и монетизация.
Участники также обсуждают, что влияние ИИ на креативную индустрию может быть негативным для художников и сценаристов.
И наконец, обсуждается, что если ИИ сможет создавать полнометражные фильмы, то это может привести к концу традиционного кино.

Qwen3-Omni: Native Omni AI model for text, image and video (github.com) 🔥 Горячее

Команда Alibaba Cloud представила Qwen3-Omni — первую в мире модель, способную одновременно обрабатывать текст, аудио, изображения и видео, а также генерировать речь в реальном времени. Она работает как единая end-to-end система, без необходимости разделения задач на отдельные модули, что повышает эффективность и снижает задержки.

Модель поддерживает мультимодальный ввод и вывод, включая распознавание объектов на видео, анализ аудиодорожек и синтез голоса с естественной интонацией. Это открывает возможности для создания более интерактивных приложений, таких как голосовые ассистенты с визуальным контекстом или системы автоматизированного контент-модерации.

by meetpateltech • 22 сентября 2025 г. в 17:50 • 522 points

Оригинал • HN

#alibaba-cloud #multimodal-ai #natural-language-processing #computer-vision #speech-recognition #speech-synthesis #real-time-processing #gpu #github #llm

Комментарии (132)

Обсуждается мультимодальная модель Qwen3 с поддержкой голосового ввода/вывода, переводом в реальном времени и впечатляющими демонстрациями.
Участники отмечают её доступность для локального запуска (70GB весов) и потенциал для интеграции в умный дом и другие приложения.
Поднимаются вопросы о производительности на разных языках, "нативной поддержке видео" и сравнении с закрытыми моделями типа Gemini.
Высказываются опасения о возможном доминировании Китая на рынке открытых AI-моделей и реакции на это со стороны США.
Обсуждаются технические аспекты: необходимое железо (GPU), квантование, портирование на macOS и стоимость использования.