Image Diffusion Models Exhibit Emergent Temporal Propagation in Videos
Диффузионные модели изображений, изначально предназначенные для генерации, неявно захватывают семантические структуры, позволяя решать задачи распознавания и локализации. Их self-attention карты интерпретируются как semantic label propagation kernels, обеспечивающие точные пиксельные соответствия между релевантными регионами. Расширение этого механизма на последовательности кадров видео создаёт temporal propagation kernel, enabling zero-shot object tracking через сегментацию без дообучения.
Авторы демонстрируют эффективность оптимизаций на этапе инференса — DDIM inversion, textual inversion и adaptive head weighting — для адаптации фич диффузии к устойчивой пропагации меток. На базе этого вводится DRIFT: фреймворк для трекинга объектов в видео, использующий предобученную диффузионную модель изображений с уточнением масок через SAM. DRIFT достигает state-of-the-art результатов в zero-shot видео object segmentation на стандартных бенчмарках.