Тег: #multimodal — Hacker News Digest

Gemini 3.0 Pro – early tests (twitter.com)

Социальная сеть X (ранее Twitter) требует включённого JavaScript для работы. При его отключении пользователь видит сообщение о необходимости активировать JavaScript или сменить браузер на поддерживаемый, со ссылкой на список совместимых браузеров.

Также упоминается, что проблемы могут вызывать расширения для приватности — их советуют отключить. Внизу страницы приведены стандартные ссылки на условия использования, политики и информацию о рекламе.

by ukuina • 02 октября 2025 г. в 18:26 • 184 points

Оригинал • HN

#javascript #gemini #llm #claude #multimodal #twitter

Комментарии (109)

Критика отсутствия у Google сильной продуктовой культуры, что мешает созданию инновационных продуктов на основе их же технологий.
Обсуждение субъективности сравнения моделей ИИ (Gemini, GPT, Claude) и сложности объективной оценки из-за различий в задачах и опыте пользователей.
Скептицизм по поводу рекламных кампаний и хайпа вокруг новых моделей, которые часто не соответствуют реальным возможностям.
Подчеркивание проблем Gemini с многократным выполнением инструкций и склонностью к "зацикливанию" по сравнению с конкурентами.
Отмечается сильная мультимодальность Gemini (работа с изображениями, видео), но сложность доступа и использования продуктов Google AI.

Qwen3-VL (qwen.ai) 🔥 Горячее

Qwen — это серия больших языковых моделей, разработанных Alibaba Group. Модели Qwen, включая версии для генерации текста, кода и мультимодальных задач, позиционируются как открытые и конкурентоспособные альтернативы другим известным ИИ, таким как GPT от OpenAI. Они поддерживают длинный контекст, мультиязычность и специализированные применения, например, для программирования или анализа данных.

Qwen2, следующее поколение, демонстрирует улучшенную производительность, эффективность и расширенные возможности, включая работу с аудио и изображениями. Модели доступны в различных размерах, от компактных версий для устройств с ограниченными ресурсами до мощных вариантов для сложных задач, что делает их гибким инструментом для разработчиков и исследователей.

by natrys • 23 сентября 2025 г. в 20:59 • 407 points

Оригинал • HN

#qwen #alibaba-group #openai #llm #multimodal #machine-learning #artificial-intelligence #open-source

Комментарии (131)

Пользователи высоко оценили производительность модели Qwen3-VL при обработке сложных изображений (например, низкокачественных счетов), отмечая её превосходство над другими решениями.
Обсуждаются технические и экономические аспекты запуска больших моделей (235B параметров) локально, включая требования к оборудованию и стоимость вычислений.
Модель позиционируется как конкурентоспособная с закрытыми SOTA-решениями (GPT-4, Omni) при значительном снижении стоимости использования.
Критикуются отдельные недостатки, характерные и для других мультимодальных моделей: ошибки в анализе edge-кейсов (например, подсчет конечностей у животных).
Отмечается активность и щедрость команды Qwen в публикации моделей с открытыми весами и их вклад в развитие open-source сообщества.

AI is going great for the blind (2023) (robertkingett.com)

Слепые активно внедряют ИИ: Be My Eyes описывает картинки через ChatGPT, подкастеры хвалят LLM, а дикторы отдают голоса ElevenLabs.
Я скептик: LLM даёт ошибки, но это всё же данные, которые зрячие нам не предоставляют.
Парадокс: я не стану нанимать диктора, использующего синтез речи, но это может выглядеть как дискриминация.
Когда хайп уляжется, слепые будут требовать доступности самих платформ и их вывода; веб-станет менее доступным, потому что ИИ пишет плохой код.
Повторяется история OCR и беспилотников: обещаний много, прогресса мало.
Сейчас LLM применяют, чтобы описывать персонажей, клипы и т. д.; точность не важна, важно хоть что-то получить.
Сообщество верит, что технологии решат всё, потому что люди не хотят помогать.

by ljlolel • 03 сентября 2025 г. в 07:07 • 79 points

Оригинал • HN

#llm #accessibility #ocr #elevenlabs #ietf #multimodal

Комментарии (46)

Слепые и слабовидящие активно используют LLM и мультимодальные ИИ для описания изображений, OCR и повседневных задач, считая технологию «меньшим злом», чем полное отсутствие помощи со стороны людей.
Одновременно они предупреждают: чрезмерная вера в ИИ может стать оправданием для производителей не делать изначально доступные интерфейсы и снижать инвестиции в «настоящую» доступность.
Участники отмечают, что ИИ-ответы часто содержат ошибки и галлюцинации, но даже 85 % правильной информации лучше, чем ничего; критично важно уметь оценивать доверие к результатам.
Примеры вроде Be My Eyes показывают, что живое человеческое участие всё ещё востребовано, хотя объём звонков может падать после появления ИИ-функций.
В дискуссии звучит тревога по поводу замены людей (дикторов, переводчиков) дешёвыми ИИ-«заглушками», что снижает качество контента.
ИТ-стандарты (IETF) уже обсуждают, нужно ли явно разрешать обход «AI-предпочтений» ради вспомогательных технологий, сталкиваясь с сопротивлением правообладателей.