Grayskull: A tiny computer vision library in C for embedded systems, etc.
Grayskull — это компактная библиотека компьютерного зрения на C без зависимостей, созданная специально для встраиваемых систем, дронов и робототехники. Её минималистичный дизайн позволяет использовать даже на устройствах с ограниченными ресурсами, сохраняя при этом функциональность для базовых задач компьютерного зрения. Библиотека фокусируется на эффективности и простоте интеграции в существующие проекты.
Разработчики позиционируют grayskull как альтернативу более тяжёлым решениям, подчёркивая её лёгкость и универсальность. Ключевое преимущество — отсутствие внешних зависимостей, что упрощает компиляцию и развертывание на различных платформах. Библиотека идеально подходит для проектов, где важна производительность и минимальный размер исполняемого кода.
Комментарии (15)
- Пользователи обсуждали, что вместо использования готовых библиотек вроде OpenCV, они предпочитают реализовывать алгоритмы с нуля на C, чтобы лучше понять, что происходит под капотом.
- Участник поделился опытом попытки написать собственную реализацию OpenCV на C, но проект был приостановлен из-за потери интереса к компьютерному зрению.
- Другой участник упомянул, что вместо того, чтобы изучать готовые решения, он предпочитает читать исходный код, чтобы понять, как работает алгоритм.
- Была также поднята тема того, что вместо использования готовых решений, лучше уделять время изучению основ и первопричин.
- Участники сошлись на том, что важно понимать, что стоит за конкретной техникой или инструментом, и что важно не просто использовать инструмент, но и понимать, как он работает.
By the Power of Grayscale
Статья представляет собой руководство по созданию минимальной библиотеки компьютерного зрения Grayskull, использующей только 8-битные изображения в градациях серого, обычный C и простые структуры данных. Автор демонстрирует базовые операции с пикселями: инвертирование, зеркалирование, копирование, обрезку и изменение размера. Особое внимание уделено двум методам масштабирования - ближайшего соседа (быстрый, но с блоками) и билинейной интерполяции (медленнее, но качественнее).
Библиотека реализует свёрточные фильтры для обработки изображений, где новое значение пикселя вычисляется как взвешенная сумма соседних пикселей с использованием ядра фильтра. Приведены примеры распространённых ядер: размытие по ящику (box blur), гауссово размытие, повышение резкости и тиснение (emboss). Статья подчёркивает, что изображение по сути является прямоугольником чисел, и даже с минимальными инструментами можно реализовать мощные алгоритмы компьютерного зрения.
Комментарии (44)
- Обсуждение охватило от основ компьютерного зрения до практических примеров и ссылок на ресурсы, включая MIT-2024 книгу и репозиторий GitHub.
- Участники обменялись опытом в индустрии машинного зрения, обсуждая такие темы как цвет против grayscale, промышленные применения и библиотеки вроде Halcon и MVTec.
- Были упомянуты такие инструменты как customFilter и примеры кода, а также ссылки на полезные ресурсы.
- В комментариях также поднимались вопросы о балансе между стоимостью, скоростью и качеством изображения в промышленных системах.
- В целом, обсуждение было наполнено практическими советами и ссылками на открытые исходники и учебные материалы.
Комментарии (100)
- Обсуждение охватывает широкий спектр задач: от смены подгузника до уборки и приготовления пищи, подчеркивая, что большинство из них требуют сложной манипуляции, чувствительности к силе и тактильной обратной связи, что пока не достигнуто.
- Участники обсуждения отмечают, что большинство этих задач требуют не только точной манипуляции, но и способности к восприятию и моделированию среды, что делает их особенно трудными для роботов.
- Некоторые комментаторы поднимают вопрос о том, что многие из этих задач уже решаются роботами в промышленных условиях, и что отсутствие "общего датчика" может быть не так критично, как это представляется.
- Другие участники подчеркивают, что даже если технические проблемы решаемы, то остается вопрос о том, как робот будет справляться с непредсказуемыми и часто требующими творческого подхода ситуациями, которые могут возникнуть в домашней обстановке.
- Некоторые также высказывают мнение, что вместо того, чтобы сосредоточиться на отдельных трудностях, следует сосредоточиться на создании универсального робота, который может адаптироваться к различным ситуациям, что может быть более продуктивно в долгосрочной перспективе.
Figure 03, our 3rd generation humanoid robot 🔥 Горячее 💬 Длинная дискуссия
Figure 03 — третье поколение человекоподобного робота от компании Figure. Вместо того, чтобы просто собрать ещё одного робота, инженеры заново спроектировали его с нуля под массовое производство, безопасность в домашних условиях и под Helix — новую модель ИИ, которая учится прямо у людей.
Главное: камеры в ладонях и новая тактильная кожа позволяют Helix видеть и чувствовать всё, что делает робот. Это делает возможным, чтобы он учился напрямую от человека, а не в лаборатории. Плюс, благодаря переработке под массовое производство, себестоимость снизилась на 47% и теперь робот стоит меньше, чем электромобиль. Пока что он доступен только корпоративным партнёрам, но вот-вот и для дома.
Комментарии (376)
- Обсуждение варьируется от критики до восторга, но большинство комментариев подчеркивает, что роботы пока не готовы к массовому использованию из-за цены, надёжности и этичных вопросов.
- Участники обсуждения поднимают вопросы о том, что роботы не могут выполнять большинство задачь, которые они демонстрируют в видео, и что их использование может быть ограничено только простыми задачами.
- Некоторые комментаторы выражают обеспокоенность по поводу конфиденциальности, так как роботы могут собирать данные о домашней жизни людей.
- Также обсуждается, что дизайн роботов может вызывать чувство тревоги и что они не выглядят дружелюбно.
- Некоторые комментаторы также поднимают вопрос о том, что роботы могут быть использованы для военных целей или для слежки.
- Некоторые комментаторы также выражают сомнение в том, что роботы могут быть использованы для домашних задачь в ближайшем будущем из-за их высокой стоимости и ограниченной функциональности.
- Некоторые комментаторы также поднимают вопрос о том, что роботы могут быть использованы для замены человеческого труда, что может вызвать социальные и экономические последствия.
- Некоторые комментаторы также выражают сомнение в том, что роботы могут быть использованы для ухода за пожилыми людьми, так как это может вызвать у них чувство одиночества и изоляции.
- Некоторые комментаторы также поднимают вопрос о том, что роботы могут быть использованы для военных целей или для слежки.
- Некоторые комментаторы также выражают сомнение в том, что роботы могут быть использованы для домашних задачь в ближайшем будущем из-за их высокой стоимости и ограниченной функциональности.
High-resolution efficient image generation from WiFi Mapping
Исследователи предложили метод генерации изображений высокого разрешения на основе данных WiFi Channel State Information (CSI), используя предобученную модель латентной диффузии. Вместо прямого преобразования радиосигналов в пиксели, модель сначала переводит CSI в скрытое пространство, где диффузионный процесс достраивает детализированное представление. Это позволяет эффективно восстанавливать сложные сцены с высоким качеством, избегая шумов и артефактов традиционных подходов.
Ключевым преимуществом является использование предобученного диффузионного компонента, что значительно сокращает вычислительные затраты и время обучения. Метод демонстрирует практическую применимость в сценариях мониторинга через стены или в условиях низкой видимости, расширяя возможности беспроводных технологий для компьютерного зрения.
Комментарии (32)
- Технология использует Wi-Fi данные (CSI) как дополнительное условие для модели диффузии (Stable Diffusion), которая генерирует изображения, заполняя пробелы правдоподобными, но частично случайными деталями.
- Модель обучалась на парных данных (Wi-Fi и изображения) конкретной комнаты и человека, что вызывает скептицизм относительно её способности обобщать и обвинения в переобучении.
- Результаты демонстрируют высокую детализацию, но цвет и многие визуальные элементы не извлекаются из Wi-Fi, а являются результатом работы генеративной модели.
- Обсуждаются потенциальные угрозы приватности, если технология получит развитие, поскольку она теоретически может позволить "видеть" сквозь стены.
- Отмечается недостаток информации в статье: низкое разрешение примеров изображений и отсутствие деталей о том, как именно данные собирались и обрабатывались.
Launch HN: Airweave (YC X25) – Let agents search any app
Airweave позволяет ИИ-агентам искать информацию в любом приложении, автоматизируя взаимодействие с пользовательскими интерфейсами. Это устраняет необходимость в API или специальных интеграциях, поскольку система использует компьютерное зрение и ИИ для навигации и извлечения данных напрямую из визуальных элементов приложений.
Ключевая идея в том, что агенты могут выполнять задачи, имитируя человеческие действия — кликая, вводя текст и анализируя экраны. Это особенно полезно для автоматизации workflows в legacy-системах или приложениях без публичного API. Практический вывод: снижается зависимость от разработчиков для создания интеграций, ускоряется внедрение автоматизации в разнородных средах.
Комментарии (29)
- Обсуждение различий между Airweave и конкурентами (Onyx, Glean), где Airweave позиционируется как инфраструктура для разработчиков, а не готовое пользовательское приложение.
- Вопросы о безопасности и управлении доступом (RBAC): подход к синхронизации данных для каждого пользователя в отдельности для предотвращения утечек и планы по реализации единых списков ACL.
- Критика сложной модели ценообразования и предложения по её упрощению, а также ответ о наличии бесплатной версии для разработчиков.
- Обсуждение тенденции интеграции подобных технологий крупными игроками (OpenAI, Anthropic) и восприятие этого как подтверждения полезности продукта.
- Ответы на технические вопросы: предпочтение полного индексирования данных вместо вызова инструментов на лету, поддержка чистого ключевого поиска без использования LLM.
Computer Vision: Algorithms and Applications, 2nd ed
Второе издание фундаментального учебника по компьютерному зрению охватывает алгоритмы и практические приложения, от классических методов до современных нейросетевых подходов. Книга основана на курсах автора в Университете Вашингтона и Стэнфорда, с акцентом на глубину и доступность материала. Электронная версия в формате PDF оптимизирована для онлайн-чтения, с гиперссылками и возможностью комментирования.
Текст дополнен визуальными примерами, включая маски сегментации Mask R-CNN и 3D-реконструкции. Для преподавателей и студентов указаны ссылки на слайды и курсы ведущих университетов, таких как MIT, Корнелл и CMU. Автор приветствует обратную связь по ошибкам и планирует периодически обновлять электронную версию.
Комментарии (13)
- Пользователи высоко оценивают книгу как отличный фундаментальный учебник по компьютерному зрению.
- Обсуждается отсутствие продвинутых учебников, покрывающих современные практики, и предлагается искать актуальные знания на arXiv и GitHub.
- Поднимается вопрос о том, почему старый пост (2022 г.) публикуется снова, и предлагается добавлять дату в заголовок для ясности.
- Указывается на наличие слайдов и лекций к книге на сайте автора.
- Отмечается, что область компьютерного зрения очень широка и быстро развивается, что затрудняет создание актуальных учебников.
Moondream 3 Preview: Frontier-level reasoning at a blazing speed 🔥 Горячее
Moondream 3 — это предварительная версия модели компьютерного зрения с архитектурой MoE на 9 млрд параметров, из которых активно используются только 2 млрд. Это позволяет ей достигать уровня передовых моделей в задачах визуального анализа, сохраняя при этом высокую скорость и низкую стоимость инференса. Ключевые улучшения включают расширение контекста до 32 тыс. токенов, лучшую обучаемость (включая обучение с подкреплением) и нативную поддержку сложных запросов, таких как детекция объектов, указание на элементы и структурированный вывод.
Модель демонстрирует впечатляющие результаты: точно определяет объекты по описанию (например, «бегун в фиолетовых носках»), генерирует JSON по изображению, преобразует таблицы в Markdown и работает с OCR. Несмотря на компактность, в бенчмарках она конкурирует с топовыми решениями, но делает это в разы быстрее и дешевле, что открывает возможности для массового применения в робототехнике, медицине и системах наблюдения.
Комментарии (38)
- Moondream 2 и 3 высоко оцениваются за точность и скорость в задачах автоматической разметки датасетов и детекции объектов, особенно для краевых устройств.
- Архитектура MoE модели с активацией только 2B параметров считается прорывом для развертывания на edge-устройствах из-за низкой задержки и стоимости инференса.
- Отмечаются проблемы с точностью (precision) в последних релизах, а также отсутствие информации о ценах в облаке и временная лицензия BSL для превью Moondream 3.
- Модель демонстрирует впечатляющие результаты в сравнении с крупными коммерческими аналогами (Gemini, Claude, OpenAI), особенно в задачах, смежных с OCR.
- Потенциальные применения включают автоматизацию работы с UI, анализ графиков и диаграмм, а также управление компьютером/браузером.
Show HN: A little notebook for learning linear algebra with Python
Книга представляет собой структурированное введение в линейную алгебру, разбитое на пять глав, каждая из которых последовательно раскрывает ключевые концепции. Начинается с основ векторов и скаляров, включая операции над ними, скалярное произведение и проекции, затем переходит к матрицам и их свойствам, включая умножение, обратные матрицы и специальные типы вроде симметричных и диагональных. Третья глава посвящена системам линейных уравнений, методам исключения и LU-разложению, четвёртая — векторным пространствам, базисам и размерности, а пятая — линейным преобразованиям, их матричному представлению и свойствам вродя обратимости и проекций.
Особенность подхода — сочетание геометрической интуиции (векторы как стрелки, матрицы как преобразования) с алгебраической строгостью, что помогает глубже понять материал. Практические аспекты, такие как вычисление ранга или работа с координатными системами, подчёркивают прикладную ценность темы для машинного обучения, компьютерной графики и инженерии.
Комментарии (35)
- Участники обсуждают учебные материалы по линейной алгебре, отмечая полезность книги "The Little Book of Linear Algebra" и её связи с практическими лабораторными работами.
- Возникает дискуссия о подходах к обучению: одни подчеркивают важность исполняемого кода для экспериментов, другие настаивают на необходимости изучения абстрактной теории с помощью математических учебников и ручных вычислений.
- Критикуются некоторые визуализации и определения в материалах (например, определение вектора), как вводящие в заблуждение или недостаточно строгие с математической точки зрения.
- Обсуждаются практические аспекты: применимость знаний для компьютерного зрения и машинного обучения, сравнение NumPy с другими инструментами (Octave, MATLAB) и важность интуитивного понимания.
- Автор книги отвечает на критику, поясняя свой подход и предлагая ссылки на дополнительные ресурсы (например, 3Blue1Brown) для лучшего визуального понимания.
Qwen3-Omni: Native Omni AI model for text, image and video 🔥 Горячее
Команда Alibaba Cloud представила Qwen3-Omni — первую в мире модель, способную одновременно обрабатывать текст, аудио, изображения и видео, а также генерировать речь в реальном времени. Она работает как единая end-to-end система, без необходимости разделения задач на отдельные модули, что повышает эффективность и снижает задержки.
Модель поддерживает мультимодальный ввод и вывод, включая распознавание объектов на видео, анализ аудиодорожек и синтез голоса с естественной интонацией. Это открывает возможности для создания более интерактивных приложений, таких как голосовые ассистенты с визуальным контекстом или системы автоматизированного контент-модерации.
Комментарии (132)
- Обсуждается мультимодальная модель Qwen3 с поддержкой голосового ввода/вывода, переводом в реальном времени и впечатляющими демонстрациями.
- Участники отмечают её доступность для локального запуска (70GB весов) и потенциал для интеграции в умный дом и другие приложения.
- Поднимаются вопросы о производительности на разных языках, "нативной поддержке видео" и сравнении с закрытыми моделями типа Gemini.
- Высказываются опасения о возможном доминировании Китая на рынке открытых AI-моделей и реакции на это со стороны США.
- Обсуждаются технические аспекты: необходимое железо (GPU), квантование, портирование на macOS и стоимость использования.
Lightweight, highly accurate line and paragraph detection
Новая модель на основе графовых сверточных сетей (GCN) решает задачу одновременного обнаружения строк и абзацев в документах. Вместо традиционных методов, которые обрабатывают эти элементы отдельно, подход объединяет их в единую структуру, где узлы графа представляют текстовые блоки, а связи отражают пространственные и семантические отношения. Это позволяет точнее определять логическую структуру документа, учитывая контекст и взаимодействие между строками и абзацами.
Модель демонстрирует высокую точность на стандартных наборах данных, превосходя предыдущие методы как в сегментации строк, так и в группировке их в абзацы. Ключевое преимущество — способность обрабатывать сложные макеты с перекрывающимися или разнородными блоками текста. Практический вывод: такой подход может значительно улучшить автоматическое извлечение информации из сканированных документов и PDF, сокращая потребность в ручной разметке.
Комментарии (23)
- Обсуждаются сложности автоматического извлечения структурированного текста (абзацы, колонки, таблицы) из PDF, особенно с рукописными документами и изображениями.
- Упоминается, что подобная технология (анализ кластеров для группировки слов) уже давно используется в iOS для функции масштабирования PDF по тапу.
- Участники делятся проблемами и неудачным опытом с существующими инструментами для преобразования PDF в текст.
- Поднимается вопрос о необходимости улучшения читаемого режима в браузерах и более надежных решений для классификации страниц с таблицами.
- Предлагаются альтернативные решения с использованием ИИ (Gemini для OCR) и отмечается ироничность того, что сама научная работа об улучшении PDF доступна в формате PDF.
Tesla changes meaning of 'Full Self-Driving', gives up on promise of autonomy 🔥 Горячее 💬 Длинная дискуссия
- Tesla переименовала пакет Full Self-Driving в «FSD (Supervised)» — фактически отказавшись от обещанной полной автономии.
- С 2016 года компания продавала опцию за до $15 000, утверждая, что машины получат беспилотный режим «по воздуху».
- Все авто 2016-2023 гг. не потянут полный FSD: нужен новый компьютер, но плана апгрейда нет.
Комментарии (408)
- Кто-то считает отказ от LiDAR ошибкой: камеры «слепнут» от солнца и грязи, случайные дворники — тому пример.
- Другие уверены: чистое зрение уже почти работает — ежедневные поездки без вмешательства и быстрый прогресс говорят сами за себя.
- Третьи видят многообещающий маркетинг: 8 лет обещаний «полного самоуправления каждый год» подняли акции, но юридически Tesla теперь пишет лишь «FSD (Supervised)».
- Участники обсуждают возможный классовый иск и угрозу репутации: «если это не мошенничество, то что тогда?»
- Инженеры напоминают: надёжность требует резерва; при «vision-only» нет запасного плана, когда камеры теряют видимость.
WiFi-3D-Fusion – Real-time 3D motion sensing with Wi-Fi
WiFi-3D-Fusion — open-source проект, который по CSI-сигналам Wi-Fi и глубокому обучению восстанавливает 3D-позы человека.
Сочетает беспроводное зондирование с компьютерным зрением для нового уровня пространственного восприятия.
Комментарии (25)
- Подозрения в «искусственности» проекта: README и диаграммы, похоже, полностью сгенерированы ИИ, что вызывает вопросы к подлинности.
- Репозиторий перегружен значками и счётчиками, что многие воспринимают как маркер «AI-обёртки» над чужими инструментами.
- Технология Wi-Fi-сенсинга реальна: UofT показала похожий прототип в 2018-19 гг., а новая работа представлена на CVPR 2024.
- Пользователей интересует практическое разрешение (кошка vs. сумка), необходимость пары «передатчик-приёмник» и возможность заменить LiDAR в роботах.
- Плюсы: дешёвое «видение» без камер, интеграция в Home Assistant. Минусы: потенциальные угрозы приватности и ощущение «сырого» прототипа.
Line scan camera image processing for train photography 🔥 Горячее
- Камера – Alkeria Necta N4K2-7C, 4096×2 Bayer, 16-бит raw.
- ROI – энергия
∂I/∂x / (0.1·max(I)+|∇I|); 99-й перцентиль по блокам, порог 1.5× минимума. - Скорость – сравниваем два зелёных канала Bayer-сдвигами ±7 px, подпиксельный пик методом итеративного Гаусса.
- Ресэмплинг – интерполяция по скорости, чтобы не растянуть/сжать объект.
- Демозаик – bilinear + коррекция полос.
- Полосы – вычитаем медиану по строкам.
- Шум – Gaussian + bilateral фильтр.
- Косой кадр – Hough-прямые → угол → поворот.
- Цвет – калибровка по чекеру X-Rite.
- Код – Python + NumPy + OpenCV, «vibe-coding» в Cursor.
Комментарии (66)
- Пользователи делятся опытом: кто-то пробовал сканировать деревья дроном, кто-то делает slit-scan-анимации вручную, а кто-то вспоминает сканеры и старые цифровые спины.
- Обсуждаются промышленные применения: сортировка продуктов на конвейере, фото-финиш, спутники и даже медицинская ОКТ.
- Рассказывают, как почти любую камеру можно превратить в line-scan, выставив только одну строку пикселей и получив 60 000 FPS.
- Показывают примеры снимков из окна поезда и спорят, насколько реально «отсканировать» часовую поездку целиком.
- Отмечают художественный эффект: поезд застыл между полосами цвета, а движущиеся части искажаются, как у спортсменов на фото-финиша.
Home Depot sued for 'secretly' using facial recognition at self-checkouts 🔥 Горячее 💬 Длинная дискуссия
Покупатель Бенджамин Янковски подал коллективный иск против Home Depot, утверждая, что камеры самообслуживания тайно сканируют лица посетителей. В чикагском магазине он заметил зелёную рамку вокруг своего лица на экране и не обнаружил ни предупреждений, ни альтернативной кассы.
Истец считает, что ритейлер с 2024 года использует «компьютерное зрение» для борьбы с кражами, собирая биометрические данные без согласия, что нарушает закон штата Иллинойс (BIPA). Он требует 1 000 долларов за каждое небрежное нарушение и 5 000 долларов за умышленное, а также хочет представлять всех пострадавших покупателей из 76 магазинов сети в штате.
Ранее Rite Aid уже получил пятилетний запрет на использование технологии распознавания лиц после массовых ошибок и скрытого сбора данных.
Комментарии (471)
- Пользователи обсуждают, что сети вроде Home Depot используют камеры на самообслуживании для распознавания лиц и накопления данных о ворах, чтобы потом «дотянуть» до уголовного порога.
- Многие отказываются от самообслуживания: считают его бесплатной работой за корпорации, боятся ложных обвинений и не доверяют системам контроля.
- Спорят, достаточно ли просто «видеть» лицо или уже хранить биометрию; юридически тонкая грань, но большинство уверены, что данные всё-таки собираются.
- Кто-то носит маски или заклеивает камеры, кто-то уходит в магазины с живыми кассирами, а кто-то иронизирует о «консьерж-сервисе» в высокоубыточных точках.
- Общий тезис: корпорации экономят на персонале, перекладывают риски и работу на покупателя, а затем следят за ним как за потенциальным вором.
DINOv3
DINOv3 — PyTorch-реализация и модели от Facebook Research.
Репозиторий содержит код, веса и примеры для самостоятельного обучения и дообучения.
Ключевые возможности
- Архитектура ViT: поддержка разных размеров (Small, Base, Large, Giant).
- Предобученные веса: ImageNet-22k, ImageNet-1k, SAM, COCO, ADE20k.
- Zero-shot классификация и сегментация без дообучения.
- Лёгкое дообучение: скрипты для классификации, детекции, сегментации.
Установка
git clone https://github.com/facebookresearch/dinov3
cd dinov3
pip install -r requirements.txt
Быстрый старт
from dinov3 import DinoVisionTransformer, load_pretrained
model = load_pretrained("dinov3_vitb14")
features = model.extract_features(image)
Лицензия
MIT (код) + CC-BY-NC 4.0 (веса).
Комментарии (28)
- Meta выпустила DINOv3 — самонадзорную модель зрения, обученную на 1,2 млрд изображений и выдающую плотные эмбеддинги без дообучения.
- Для спутниковых снимков появилась специальная версия, что радует специалистов по аэро- и спутниковым данным.
- Модель можно использовать как прямую замену DINOv2 в существующих пайплайнах (см. примеры в репозитории и ноутбуках).
- Лицензия новая и более ограниченная, чем Apache 2.0 у DINOv2; доступ требует регистрации и одобрения Meta.
- Сообщество отмечает высокое качество эмбеддингов, но разочаровано коммерческой лицензией.
Hand-picked selection of articles on AI fundamentals/concepts
- Основы ИИ: статьи о полном цикле — от построения нейросетей до оценки результатов.
- Алгоритмы/архитектуры: линейная и логистическая регрессия, k-ближайших соседей, кластеризация, SVM, наивный Байес, деревья решений, ансамбли, GAN, диффузия, GNN, внимание, CNN, RL, MoE, SSM, агенты, FlashAttention, ускорение моделей, спекулятивное декодирование, кросс-валидация.
- Данные/обучение: сэмплирование, дисбаланс, нормализация, парадигмы обучения, инициализация Xavier, регуляризация, градиентный спуск, функции активации и потерь, дообучение, разбиение данных, batchnorm, dropout, двойной спуск, LoRA, распределённое обучение.
- Речь: обработка речи.
- Зрение: ViT, рецептивное поле, ResNet, генерация изображений GPT-4o.
- NLP: эмбеддинги, задачи NLP, токенизация, трансформеры, LLM, RAG, RLHF, перевод, графы знаний, обнаружение галлюцинаций, NER, RAG, LLMOps, бенчмарки.
- Мультимодальность: VLM, архитектуры VLM, управление компьютером.
- Модели: BERT, GPT, CLIP, Meena, ChatGPT, GPT-4, LLaMA, Alpaca, Gemini, Toolformer, Visual ChatGPT, TaskMatrix, BigBird, o1, DeepSeek, Gemma 3n.
- Оценка: метрики, F-beta, A/B-тесты.
- MLOps: дрейф данных, инструменты и тесты MLOps.
- On-device ИИ: компрессия, PII, федеративное обучение, дифференциальная приватность, трансформеры на устройстве.
- Управление проектами: OKR, RICE, диаграммы Ганта, управление проектами.
- Разное: «Топ-30 Ильи Сацкевера».
Комментарии (13)
- Участники раскритиковали статью за очевидную машинную генерацию и «сливную» подборку источников.
- Подчёркнули, что контент местами бессмысленный и не отражает реальную картину рынка.
- Некоторые обсудили устойчивость рынка инструментов вроде Cursor и отметили, что спрос на «agentic coding» растёт независимо от судьбы отдельных продуктов.
- Один из участников задал вопрос о переходе из веб-разработки в ML и оценке времени на подготовку.
- В целом настроение: «ещё один AI-сгенерированный спам, но библиография пригодится».