Hacker News Digest

Тег: #multimodal

Постов: 3

Gemini 3.0 Pro – early tests (twitter.com)

Социальная сеть X (ранее Twitter) требует включённого JavaScript для работы. При его отключении пользователь видит сообщение о необходимости активировать JavaScript или сменить браузер на поддерживаемый, со ссылкой на список совместимых браузеров.

Также упоминается, что проблемы могут вызывать расширения для приватности — их советуют отключить. Внизу страницы приведены стандартные ссылки на условия использования, политики и информацию о рекламе.

by ukuina • 02 октября 2025 г. в 18:26 • 184 points

ОригиналHN

#javascript#gemini#llm#claude#multimodal#twitter

Комментарии (109)

  • Критика отсутствия у Google сильной продуктовой культуры, что мешает созданию инновационных продуктов на основе их же технологий.
  • Обсуждение субъективности сравнения моделей ИИ (Gemini, GPT, Claude) и сложности объективной оценки из-за различий в задачах и опыте пользователей.
  • Скептицизм по поводу рекламных кампаний и хайпа вокруг новых моделей, которые часто не соответствуют реальным возможностям.
  • Подчеркивание проблем Gemini с многократным выполнением инструкций и склонностью к "зацикливанию" по сравнению с конкурентами.
  • Отмечается сильная мультимодальность Gemini (работа с изображениями, видео), но сложность доступа и использования продуктов Google AI.

Qwen3-VL (qwen.ai) 🔥 Горячее

Qwen — это серия больших языковых моделей, разработанных Alibaba Group. Модели Qwen, включая версии для генерации текста, кода и мультимодальных задач, позиционируются как открытые и конкурентоспособные альтернативы другим известным ИИ, таким как GPT от OpenAI. Они поддерживают длинный контекст, мультиязычность и специализированные применения, например, для программирования или анализа данных.

Qwen2, следующее поколение, демонстрирует улучшенную производительность, эффективность и расширенные возможности, включая работу с аудио и изображениями. Модели доступны в различных размерах, от компактных версий для устройств с ограниченными ресурсами до мощных вариантов для сложных задач, что делает их гибким инструментом для разработчиков и исследователей.

by natrys • 23 сентября 2025 г. в 20:59 • 407 points

ОригиналHN

#qwen#alibaba-group#openai#llm#multimodal#machine-learning#artificial-intelligence#open-source

Комментарии (131)

  • Пользователи высоко оценили производительность модели Qwen3-VL при обработке сложных изображений (например, низкокачественных счетов), отмечая её превосходство над другими решениями.
  • Обсуждаются технические и экономические аспекты запуска больших моделей (235B параметров) локально, включая требования к оборудованию и стоимость вычислений.
  • Модель позиционируется как конкурентоспособная с закрытыми SOTA-решениями (GPT-4, Omni) при значительном снижении стоимости использования.
  • Критикуются отдельные недостатки, характерные и для других мультимодальных моделей: ошибки в анализе edge-кейсов (например, подсчет конечностей у животных).
  • Отмечается активность и щедрость команды Qwen в публикации моделей с открытыми весами и их вклад в развитие open-source сообщества.

AI is going great for the blind (2023) (robertkingett.com)

  • Слепые активно внедряют ИИ: Be My Eyes описывает картинки через ChatGPT, подкастеры хвалят LLM, а дикторы отдают голоса ElevenLabs.
  • Я скептик: LLM даёт ошибки, но это всё же данные, которые зрячие нам не предоставляют.
  • Парадокс: я не стану нанимать диктора, использующего синтез речи, но это может выглядеть как дискриминация.
  • Когда хайп уляжется, слепые будут требовать доступности самих платформ и их вывода; веб-станет менее доступным, потому что ИИ пишет плохой код.
  • Повторяется история OCR и беспилотников: обещаний много, прогресса мало.
  • Сейчас LLM применяют, чтобы описывать персонажей, клипы и т. д.; точность не важна, важно хоть что-то получить.
  • Сообщество верит, что технологии решат всё, потому что люди не хотят помогать.

by ljlolel • 03 сентября 2025 г. в 07:07 • 79 points

ОригиналHN

#llm#accessibility#ocr#elevenlabs#ietf#multimodal

Комментарии (46)

  • Слепые и слабовидящие активно используют LLM и мультимодальные ИИ для описания изображений, OCR и повседневных задач, считая технологию «меньшим злом», чем полное отсутствие помощи со стороны людей.
  • Одновременно они предупреждают: чрезмерная вера в ИИ может стать оправданием для производителей не делать изначально доступные интерфейсы и снижать инвестиции в «настоящую» доступность.
  • Участники отмечают, что ИИ-ответы часто содержат ошибки и галлюцинации, но даже 85 % правильной информации лучше, чем ничего; критично важно уметь оценивать доверие к результатам.
  • Примеры вроде Be My Eyes показывают, что живое человеческое участие всё ещё востребовано, хотя объём звонков может падать после появления ИИ-функций.
  • В дискуссии звучит тревога по поводу замены людей (дикторов, переводчиков) дешёвыми ИИ-«заглушками», что снижает качество контента.
  • ИТ-стандарты (IETF) уже обсуждают, нужно ли явно разрешать обход «AI-предпочтений» ради вспомогательных технологий, сталкиваясь с сопротивлением правообладателей.