Тег: #medical-imaging — Hacker News Digest

Moondream 3 Preview: Frontier-level reasoning at a blazing speed (moondream.ai) 🔥 Горячее

Moondream 3 — это предварительная версия модели компьютерного зрения с архитектурой MoE на 9 млрд параметров, из которых активно используются только 2 млрд. Это позволяет ей достигать уровня передовых моделей в задачах визуального анализа, сохраняя при этом высокую скорость и низкую стоимость инференса. Ключевые улучшения включают расширение контекста до 32 тыс. токенов, лучшую обучаемость (включая обучение с подкреплением) и нативную поддержку сложных запросов, таких как детекция объектов, указание на элементы и структурированный вывод.

Модель демонстрирует впечатляющие результаты: точно определяет объекты по описанию (например, «бегун в фиолетовых носках»), генерирует JSON по изображению, преобразует таблицы в Markdown и работает с OCR. Несмотря на компактность, в бенчмарках она конкурирует с топовыми решениями, но делает это в разы быстрее и дешевле, что открывает возможности для массового применения в робототехнике, медицине и системах наблюдения.

by kristianp • 26 сентября 2025 г. в 21:59 • 262 points

Оригинал • HN

#moe #computer-vision #ocr #edge-computing #reinforcement-learning #json #markdown #object-detection #robotics #medical-imaging

Комментарии (38)

Moondream 2 и 3 высоко оцениваются за точность и скорость в задачах автоматической разметки датасетов и детекции объектов, особенно для краевых устройств.
Архитектура MoE модели с активацией только 2B параметров считается прорывом для развертывания на edge-устройствах из-за низкой задержки и стоимости инференса.
Отмечаются проблемы с точностью (precision) в последних релизах, а также отсутствие информации о ценах в облаке и временная лицензия BSL для превью Moondream 3.
Модель демонстрирует впечатляющие результаты в сравнении с крупными коммерческими аналогами (Gemini, Claude, OpenAI), особенно в задачах, смежных с OCR.
Потенциальные применения включают автоматизацию работы с UI, анализ графиков и диаграмм, а также управление компьютером/браузером.

Philips announces digital pathology scanner with native DICOM JPEG XL output (philips.com)

Philips представила первый в мире цифровой патологоанатомический сканер с нативной поддержкой форматов DICOM JPEG и JPEG XL. Это позволяет генерировать совместимые с медицинскими стандартами изображения сразу на устройстве, без необходимости дополнительной конвертации. Конфигурируемые настройки вывода упрощают интеграцию с системами хранения и передачи медицинских данных, обеспечивая гибкость в работе с разными клиническими средами.

Использование JPEG XL значительно сокращает размер файлов при сохранении высокого качества изображений, что ускоряет передачу и анализ данных. Это особенно важно для цифровой патологии, где объёмы данных огромны. Новый сканер улучшает эффективность диагностики и снижает нагрузку на инфраструктуру медицинских учреждений.

by ksec • 20 сентября 2025 г. в 20:00 • 79 points

Оригинал • HN

#dicom #jpeg-xl #jpeg #tiff #jpeg2000 #philips #digital-pathology #medical-imaging

Комментарии (40)

Philips переходит на стандартный формат DICOM для обработки патологических изображений, отказавшись от проприетарного формата iSyntax.
Участники обсуждают технические сложности работы с огромными изображениями (60 000 x 60 000 пикселей) и форматами вроде JPEG XL, TIFF и JPEG2000.
В сообществе существуют разногласия вокруг поддержки JPEG XL в браузерах, включая конспирологические теории о противодействии со стороны Google.
Отмечаются проблемы с сервисом и поддержкой оборудования Philips в некоторых регионах, например, в Сингапуре.
Обсуждаются практические сложности ручного экспорта слайдов в TIFF, который отнимает много времени у лаборантов.