Moondream 3 Preview: Frontier-level reasoning at a blazing speed 🔥 Горячее
Moondream 3 — это предварительная версия модели компьютерного зрения с архитектурой MoE на 9 млрд параметров, из которых активно используются только 2 млрд. Это позволяет ей достигать уровня передовых моделей в задачах визуального анализа, сохраняя при этом высокую скорость и низкую стоимость инференса. Ключевые улучшения включают расширение контекста до 32 тыс. токенов, лучшую обучаемость (включая обучение с подкреплением) и нативную поддержку сложных запросов, таких как детекция объектов, указание на элементы и структурированный вывод.
Модель демонстрирует впечатляющие результаты: точно определяет объекты по описанию (например, «бегун в фиолетовых носках»), генерирует JSON по изображению, преобразует таблицы в Markdown и работает с OCR. Несмотря на компактность, в бенчмарках она конкурирует с топовыми решениями, но делает это в разы быстрее и дешевле, что открывает возможности для массового применения в робототехнике, медицине и системах наблюдения.
Комментарии (38)
- Moondream 2 и 3 высоко оцениваются за точность и скорость в задачах автоматической разметки датасетов и детекции объектов, особенно для краевых устройств.
- Архитектура MoE модели с активацией только 2B параметров считается прорывом для развертывания на edge-устройствах из-за низкой задержки и стоимости инференса.
- Отмечаются проблемы с точностью (precision) в последних релизах, а также отсутствие информации о ценах в облаке и временная лицензия BSL для превью Moondream 3.
- Модель демонстрирует впечатляющие результаты в сравнении с крупными коммерческими аналогами (Gemini, Claude, OpenAI), особенно в задачах, смежных с OCR.
- Потенциальные применения включают автоматизацию работы с UI, анализ графиков и диаграмм, а также управление компьютером/браузером.
Bit is all we need: binary normalized neural networks
Новая архитектура бинарных нормализованных нейросетей (BNNN) показывает, что для эффективного представления весов достаточно всего одного бита. Вместо традиционных 32-битных значений BNNN использует бинарные веса (±1), что резко сокращает требования к памяти и вычислительной сложности. Это особенно важно для развёртывания моделей на устройствах с ограниченными ресурсами, таких как микроконтроллеры или мобильные телефоны.
Эксперименты подтверждают, что BNNN сохраняет конкурентную точность на задачах классификации изображений, несмотря на экстремальное сжатие. Метод включает нормализацию активаций, что компенсирует потерю информации от бинаризации. Практический вывод: бинарные представления могут быть достаточны для многих приложений, открывая путь к более энергоэффективному ИИ.
Комментарии (35)
- Критика новизны подхода и ссылки на более ранние исследования в области квантованных сетей
- Обсуждение недостатков метода: значительное увеличение времени обучения и отсутствие квантования активаций
- Указание на то, что метод предназначен в основном для инференса, а не для обучения
- Сомнения в корректности выводов работы и её названия, указывающие на игнорирование предыдущих исследований
- Обсуждение технических деталей, таких как хранение параметров в двух формах и возможность более низкой битности
Redox OS Development Priorities for 2025/26
Разработчики Redox OS обозначили ключевые направления развития операционной системы на ближайшие полтора года. Основной фокус — создание трёх вариантов системы: «Hosted Redox» как веб-рантайм в виртуальной машине, «Redox Server» для edge- и cloud-сред и «Redox Desktop» для повседневного использования. Приоритетами станут совместимость, производительность, безопасность, поддержка оборудования, графический стек COSMIC/Wayland и доступность.
Особое внимание уделяется превращению Redox в безопасную платформу для веб-сервисов, включая улучшения сетевого стека, интеграцию с virtiofs и virglrenderer, а также тестирование стабильности. Сообщество приглашают к участию через донаты, контрибуцию или подачу заявок на гранты — например, от NGI Zero и NLnet на реализацию сигналов Unix, асинхронного ввода-вывода и security на основе capability-модели.
Комментарии (16)
- Предложение запускать Linux в QEMU для поддержки старых и редких устройств через безопасный интерфейс
- Обсуждение преимуществ (безопасность) и недостатков (производительность) размещения драйверов в пользовательском пространстве
- Критика выбора libc в качестве основного системного интерфейса и предложения по созданию стабильного API системных вызовов
- Вопросы о практической готовности системы, в частности о возможности запуска веб-браузера
- Упоминание о приоритетах проекта: «песочница по умолчанию» и развитие на основе возможностей (capability-based security)
Improved Gemini 2.5 Flash and Flash-Lite 🔥 Горячее 💬 Длинная дискуссия
Google выпустила обновлённые версии моделей Gemini 2.5 Flash и Flash-Lite, предлагая улучшенную производительность и эффективность. Эти модели оптимизированы для быстрой обработки запросов и снижения задержек, что делает их идеальными для приложений, требующих мгновенных ответов, таких как чат-боты и голосовые помощники.
Обновления включают повышение точности и снижение потребления ресурсов, что позволяет разработчикам интегрировать ИИ в продукты с ограниченными вычислительными мощностями. Это особенно важно для мобильных устройств и edge-устройств, где эффективность играет ключевую роль.
Комментарии (263)
- Пользователи отмечают проблемы с надежностью Gemini: обрывы ответов, непредсказуемое поведение, высокая частота ошибок и галлюцинаций.
- Многие критикуют запутанную систему версионирования моделей Google, где обновления не отражаются в номере версии (например, новый 2.5 вместо 2.6), что вызывает путаницу.
- Обсуждаются сильные стороны Gemini 2.5 Flash: высокая скорость, низкая стоимость и хорошая работа со структурированными данными, но отмечаются ограничения по длине ответа.
- Часто упоминается раздражающее поведение Gemini в приложении: навязывание и автовоспроизведение YouTube-видео в ответах, от которого нельзя отказаться.
- Пользователи сравнивают Gemini с конкурентами (OpenAI, Anthropic, Grok), отмечая ее преимущества в цене и latency, но уступающую в качестве и интеллекте моделей.
Qwen3 30B A3B Hits 13 token/s on 4xRaspberry Pi 5 🔥 Горячее
Qwen3 30B A3B Q40 на 4×Raspberry Pi 5 8 ГБ
- 30-миллиардная модель запущена на кластере из четырёх Pi 5.
- Использован формат Q40 (40% квантование), суммарно ~19 ГБ ОЗУ.
- Скорость генерации: 1,1 токен/с при 128-к контексте.
- Сеть — Gigabit Ethernet, трафик между узлами 200–300 Мбит/с.
- Питание: 5 В 5 А на каждую плату, общая мощность ≈ 60 Вт.
- Охлаждение: радиаторы + 30-мм вентиляторы, температура 60–65 °C.
- Проект полностью open-source, собран за 2 часа.
Комментарии (131)
- На кластере из 4×Raspberry Pi 5 запустили 30B-MoE-модель (3B активных параметров) и получили 13 токен/с при 4-битной квантизации.
- Участники сравнили цену/производительность с GPU, старыми x86-мини-ПК и RK3588-SBC: у Pi самая низкая энергоэффективность и дороговато за такую скорость.
- Главный интерес — «доказательство концепции» распределённого инференса: tensor-parallelism по Ethernet, максимум узлов = числу KV-голов модели.
- Сеть (1 Gb/s) пока не узкое место, но рост требует 2ⁿ узлов и сталкивается с латентностью и NUMA-эффектами.
- Кому-то идея нравится как дешёвый edge-LLM без интернета, другие считают проект игрушкой и советуют докупить used GPU или M4-Mac mini.