Moondream 3 Preview: Frontier-level reasoning at a blazing speed 🔥 Горячее
Moondream 3 — это предварительная версия модели компьютерного зрения с архитектурой MoE на 9 млрд параметров, из которых активно используются только 2 млрд. Это позволяет ей достигать уровня передовых моделей в задачах визуального анализа, сохраняя при этом высокую скорость и низкую стоимость инференса. Ключевые улучшения включают расширение контекста до 32 тыс. токенов, лучшую обучаемость (включая обучение с подкреплением) и нативную поддержку сложных запросов, таких как детекция объектов, указание на элементы и структурированный вывод.
Модель демонстрирует впечатляющие результаты: точно определяет объекты по описанию (например, «бегун в фиолетовых носках»), генерирует JSON по изображению, преобразует таблицы в Markdown и работает с OCR. Несмотря на компактность, в бенчмарках она конкурирует с топовыми решениями, но делает это в разы быстрее и дешевле, что открывает возможности для массового применения в робототехнике, медицине и системах наблюдения.
Комментарии (38)
- Moondream 2 и 3 высоко оцениваются за точность и скорость в задачах автоматической разметки датасетов и детекции объектов, особенно для краевых устройств.
- Архитектура MoE модели с активацией только 2B параметров считается прорывом для развертывания на edge-устройствах из-за низкой задержки и стоимости инференса.
- Отмечаются проблемы с точностью (precision) в последних релизах, а также отсутствие информации о ценах в облаке и временная лицензия BSL для превью Moondream 3.
- Модель демонстрирует впечатляющие результаты в сравнении с крупными коммерческими аналогами (Gemini, Claude, OpenAI), особенно в задачах, смежных с OCR.
- Потенциальные применения включают автоматизацию работы с UI, анализ графиков и диаграмм, а также управление компьютером/браузером.
Philips announces digital pathology scanner with native DICOM JPEG XL output
Philips представила первый в мире цифровой патологоанатомический сканер с нативной поддержкой форматов DICOM JPEG и JPEG XL. Это позволяет генерировать совместимые с медицинскими стандартами изображения сразу на устройстве, без необходимости дополнительной конвертации. Конфигурируемые настройки вывода упрощают интеграцию с системами хранения и передачи медицинских данных, обеспечивая гибкость в работе с разными клиническими средами.
Использование JPEG XL значительно сокращает размер файлов при сохранении высокого качества изображений, что ускоряет передачу и анализ данных. Это особенно важно для цифровой патологии, где объёмы данных огромны. Новый сканер улучшает эффективность диагностики и снижает нагрузку на инфраструктуру медицинских учреждений.
Комментарии (40)
- Philips переходит на стандартный формат DICOM для обработки патологических изображений, отказавшись от проприетарного формата iSyntax.
- Участники обсуждают технические сложности работы с огромными изображениями (60 000 x 60 000 пикселей) и форматами вроде JPEG XL, TIFF и JPEG2000.
- В сообществе существуют разногласия вокруг поддержки JPEG XL в браузерах, включая конспирологические теории о противодействии со стороны Google.
- Отмечаются проблемы с сервисом и поддержкой оборудования Philips в некоторых регионах, например, в Сингапуре.
- Обсуждаются практические сложности ручного экспорта слайдов в TIFF, который отнимает много времени у лаборантов.