Gemini 3.0 Pro – early tests
Социальная сеть X (ранее Twitter) требует включённого JavaScript для работы. При его отключении пользователь видит сообщение о необходимости активировать JavaScript или сменить браузер на поддерживаемый, со ссылкой на список совместимых браузеров.
Также упоминается, что проблемы могут вызывать расширения для приватности — их советуют отключить. Внизу страницы приведены стандартные ссылки на условия использования, политики и информацию о рекламе.
Комментарии (109)
- Критика отсутствия у Google сильной продуктовой культуры, что мешает созданию инновационных продуктов на основе их же технологий.
- Обсуждение субъективности сравнения моделей ИИ (Gemini, GPT, Claude) и сложности объективной оценки из-за различий в задачах и опыте пользователей.
- Скептицизм по поводу рекламных кампаний и хайпа вокруг новых моделей, которые часто не соответствуют реальным возможностям.
- Подчеркивание проблем Gemini с многократным выполнением инструкций и склонностью к "зацикливанию" по сравнению с конкурентами.
- Отмечается сильная мультимодальность Gemini (работа с изображениями, видео), но сложность доступа и использования продуктов Google AI.
Qwen3-VL 🔥 Горячее
Qwen — это серия больших языковых моделей, разработанных Alibaba Group. Модели Qwen, включая версии для генерации текста, кода и мультимодальных задач, позиционируются как открытые и конкурентоспособные альтернативы другим известным ИИ, таким как GPT от OpenAI. Они поддерживают длинный контекст, мультиязычность и специализированные применения, например, для программирования или анализа данных.
Qwen2, следующее поколение, демонстрирует улучшенную производительность, эффективность и расширенные возможности, включая работу с аудио и изображениями. Модели доступны в различных размерах, от компактных версий для устройств с ограниченными ресурсами до мощных вариантов для сложных задач, что делает их гибким инструментом для разработчиков и исследователей.
Комментарии (131)
- Пользователи высоко оценили производительность модели Qwen3-VL при обработке сложных изображений (например, низкокачественных счетов), отмечая её превосходство над другими решениями.
- Обсуждаются технические и экономические аспекты запуска больших моделей (235B параметров) локально, включая требования к оборудованию и стоимость вычислений.
- Модель позиционируется как конкурентоспособная с закрытыми SOTA-решениями (GPT-4, Omni) при значительном снижении стоимости использования.
- Критикуются отдельные недостатки, характерные и для других мультимодальных моделей: ошибки в анализе edge-кейсов (например, подсчет конечностей у животных).
- Отмечается активность и щедрость команды Qwen в публикации моделей с открытыми весами и их вклад в развитие open-source сообщества.
AI is going great for the blind (2023)
- Слепые активно внедряют ИИ: Be My Eyes описывает картинки через ChatGPT, подкастеры хвалят LLM, а дикторы отдают голоса ElevenLabs.
- Я скептик: LLM даёт ошибки, но это всё же данные, которые зрячие нам не предоставляют.
- Парадокс: я не стану нанимать диктора, использующего синтез речи, но это может выглядеть как дискриминация.
- Когда хайп уляжется, слепые будут требовать доступности самих платформ и их вывода; веб-станет менее доступным, потому что ИИ пишет плохой код.
- Повторяется история OCR и беспилотников: обещаний много, прогресса мало.
- Сейчас LLM применяют, чтобы описывать персонажей, клипы и т. д.; точность не важна, важно хоть что-то получить.
- Сообщество верит, что технологии решат всё, потому что люди не хотят помогать.
Комментарии (46)
- Слепые и слабовидящие активно используют LLM и мультимодальные ИИ для описания изображений, OCR и повседневных задач, считая технологию «меньшим злом», чем полное отсутствие помощи со стороны людей.
- Одновременно они предупреждают: чрезмерная вера в ИИ может стать оправданием для производителей не делать изначально доступные интерфейсы и снижать инвестиции в «настоящую» доступность.
- Участники отмечают, что ИИ-ответы часто содержат ошибки и галлюцинации, но даже 85 % правильной информации лучше, чем ничего; критично важно уметь оценивать доверие к результатам.
- Примеры вроде Be My Eyes показывают, что живое человеческое участие всё ещё востребовано, хотя объём звонков может падать после появления ИИ-функций.
- В дискуссии звучит тревога по поводу замены людей (дикторов, переводчиков) дешёвыми ИИ-«заглушками», что снижает качество контента.
- ИТ-стандарты (IETF) уже обсуждают, нужно ли явно разрешать обход «AI-предпочтений» ради вспомогательных технологий, сталкиваясь с сопротивлением правообладателей.