Hacker News Digest

Тег: #object-detection

Постов: 2

Moondream 3 Preview: Frontier-level reasoning at a blazing speed (moondream.ai) 🔥 Горячее

Moondream 3 — это предварительная версия модели компьютерного зрения с архитектурой MoE на 9 млрд параметров, из которых активно используются только 2 млрд. Это позволяет ей достигать уровня передовых моделей в задачах визуального анализа, сохраняя при этом высокую скорость и низкую стоимость инференса. Ключевые улучшения включают расширение контекста до 32 тыс. токенов, лучшую обучаемость (включая обучение с подкреплением) и нативную поддержку сложных запросов, таких как детекция объектов, указание на элементы и структурированный вывод.

Модель демонстрирует впечатляющие результаты: точно определяет объекты по описанию (например, «бегун в фиолетовых носках»), генерирует JSON по изображению, преобразует таблицы в Markdown и работает с OCR. Несмотря на компактность, в бенчмарках она конкурирует с топовыми решениями, но делает это в разы быстрее и дешевле, что открывает возможности для массового применения в робототехнике, медицине и системах наблюдения.

by kristianp • 26 сентября 2025 г. в 21:59 • 262 points

ОригиналHN

#moe#computer-vision#ocr#edge-computing#reinforcement-learning#json#markdown#object-detection#robotics#medical-imaging

Комментарии (38)

  • Moondream 2 и 3 высоко оцениваются за точность и скорость в задачах автоматической разметки датасетов и детекции объектов, особенно для краевых устройств.
  • Архитектура MoE модели с активацией только 2B параметров считается прорывом для развертывания на edge-устройствах из-за низкой задержки и стоимости инференса.
  • Отмечаются проблемы с точностью (precision) в последних релизах, а также отсутствие информации о ценах в облаке и временная лицензия BSL для превью Moondream 3.
  • Модель демонстрирует впечатляющие результаты в сравнении с крупными коммерческими аналогами (Gemini, Claude, OpenAI), особенно в задачах, смежных с OCR.
  • Потенциальные применения включают автоматизацию работы с UI, анализ графиков и диаграмм, а также управление компьютером/браузером.

Show HN: Clearcam – Add AI object detection to your IP CCTV cameras (github.com)

clearcam — добавляет к любой RTSP-камере или iPhone детекцию, трекинг объектов и push-уведомления.
Работает на Raspberry Pi, Linux, macOS, Windows; Python 3.8+.

Ключевые функции

  • Детекция людей, животных, машин, посылок (YOLOv8).
  • Трекинг объектов между кадрами.
  • Уведомления в iOS/Android (Firebase).
  • Запись коротких клипов при событии.
  • Web-интерфейс для просмотра и настройки.

Быстрый старт

git clone https://github.com/roryclear/clearcam
cd clearcam
pip install -r requirements.txt
python clearcam.py --source rtsp://user:pass@ip/stream

Настройка

  • config.yaml: камеры, классы объектов, чувствительность, токен Firebase.
  • Telegram-бот для команд «/arm», «/disarm».

Примеры

  • Дом: уведомление, если кто-то вошёл во двор.
  • Офис: отслеживание доставленных посылок.

by roryclear • 24 августа 2025 г. в 11:34 • 202 points

ОригиналHN

#python#yolov8#rtsp#firebase#raspberry-pi#linux#macos#windows#telegram#object-detection

Комментарии (53)

  • Обсуждали два решения: новый проект Clearcam и известный Frigate; Clearcam проще ставится, но удалённый просмотр и уведомления требуют подписки, тогда как у Frigate всё бесплатно.
  • Пользователей смущает, что Android-версия Clearcam пока требует регистрации через iOS и Apple Pay.
  • Ищут камеры без шпионского ПО: советуют Axis, Reolink, Ubiquiti, а также самоделки на open-source прошивке Thingino.
  • Разбирались, как детектировать машины, не остановившиеся у знака «стоп»: предложили измерять скорость между двумя точками и задавать порог.
  • Выяснили, что термин «CCTV» всё ещё используют для любых камер наблюдения, хотя технически это уже IP-видео.