Trying out Gemini 3 Pro with audio transcription and a new pelican benchmark
Google выпустил Gemini 3 Pro, обновление модели, которое позволяет ей конкурировать с ведущими аналогами. Модель сохраняет базовые характеристики предыдущей версии (обрезание знаний в январе 2025 года), но предлагает улучшенную производительность. Gemini 3 Pro поддерживает до 1 миллиона входных токенов, может генерировать до 64 000 токенов и обладает мультимодальными возможностями для обработки текста, изображений, аудио и видео.
Согласно собственным тестам Google, Gemini 3 Pro незначительно превосходит Claude 4.5 Sonnet и GPT-5.1 по большинству стандартных бенчмарков. Модель стоит дороже, чем предыдущая версия, но остается дешевле конкурентов. В практическом тесте модель продемонстрировала сильные мультимодальные возможности, успешно обработав сложную таблицу с результатами тестов и создав подробный альтернативный текст для изображения.
Комментарии (47)
- Обсуждение охватывает вопросы от транскрибирования и суммаризации длинных аудио-файлов до точности и стоимости, включая использование Whisper и Gemini 3.5 Pro, а также влияние стоимости на качество и доступность.
- Участники обсуждают, какие модели лучше всего справляются с задачей транскрибирования и суммаризации, и какие инструменты лучше всего использовать для этой цели.
- Также обсуждается, что в будущем может быть разработан единый стандарт для оценки моделей на такие задачи.
- Участники также обсуждают, какие именно аспекты важны для журналистов и исследователей, и какие именно инструменты они используют для транскрибирования и суммаризации.
Ovi: Twin backbone cross-modal fusion for audio-video generation 🔥 Горячее
В предоставленном фрагменте отсутствует содержательная информация о репозитории character-ai/Ovi. Это лишь навигационное меню и общие элементы интерфейса GitHub без описания самого проекта. Нет данных о функциональности, целях или особенностях Ovi.
Для создания содержательного пересказа требуется информация из README-файла или описания репозитория, которая отсутствует в данном фрагменте. Без этих деталей невозможно определить, представляет ли собой Ovi инструмент, библиотеку, приложение или что-то иное от character-ai.
Комментарии (110)
- Обсуждение вращается вокруг быстрого прогресса в генеративном ИИ: отдельные инструменты сливаются в единое решение, и теперь можно запускать модели локально.
- Участники обсуждают, как быстро ИИ-видео может дойти до «блокбастера» и как это повлияет на индустрию.
- Поднимаются вопросы этики: deep-fake, влияние на детей, коммерческое использование и монетизация.
- Участники также обсуждают, что влияние ИИ на креативную индустрию может быть негативным для художников и сценаристов.
- И наконец, обсуждается, что если ИИ сможет создавать полнометражные фильмы, то это может привести к концу традиционного кино.
Qwen3-Omni: Native Omni AI model for text, image and video 🔥 Горячее
Команда Alibaba Cloud представила Qwen3-Omni — первую в мире модель, способную одновременно обрабатывать текст, аудио, изображения и видео, а также генерировать речь в реальном времени. Она работает как единая end-to-end система, без необходимости разделения задач на отдельные модули, что повышает эффективность и снижает задержки.
Модель поддерживает мультимодальный ввод и вывод, включая распознавание объектов на видео, анализ аудиодорожек и синтез голоса с естественной интонацией. Это открывает возможности для создания более интерактивных приложений, таких как голосовые ассистенты с визуальным контекстом или системы автоматизированного контент-модерации.
Комментарии (132)
- Обсуждается мультимодальная модель Qwen3 с поддержкой голосового ввода/вывода, переводом в реальном времени и впечатляющими демонстрациями.
- Участники отмечают её доступность для локального запуска (70GB весов) и потенциал для интеграции в умный дом и другие приложения.
- Поднимаются вопросы о производительности на разных языках, "нативной поддержке видео" и сравнении с закрытыми моделями типа Gemini.
- Высказываются опасения о возможном доминировании Китая на рынке открытых AI-моделей и реакции на это со стороны США.
- Обсуждаются технические аспекты: необходимое железо (GPU), квантование, портирование на macOS и стоимость использования.