【论文】循环视频掩码自编码器

发布: 14小时前 (2025年12月16日 GMT+8 02:59)

8 min read

原文: arXiv

Source: arXiv - 2512.13684v1

概览

本文介绍了 Recurrent Video Masked Autoencoders (RVM)，这是一种使用基于 transformer 的循环网络在时间上聚合密集图像特征来学习视频表示的新方法。通过将学习框架设定为不对称的掩码像素重建任务，RVM 提供了一个单一的“通用”编码器，在动作识别和跟踪等最先进的视频模型上表现相当，同时在传统上由仅图像模型主导的密集空间任务上也表现出色。

关键贡献

视频的递归架构： 用轻量级递归 Transformer 取代昂贵的全时空注意力，以帧‑逐帧的方式传播特征，使计算量随视频长度线性增长。
非对称掩码预测： 仅对未来帧进行掩码，使模型能够通过简单的像素重建损失学习时间动态——无需额外的监督或蒸馏。
参数效率： 小规模 RVM 模型在参数效率上比竞争性视频 MAE 方法高出 30 倍，同时在精度上持平或超越它们。
统一编码器： 单一预训练骨干网络在 视频级任务（动作分类、点/目标跟踪）和 密集空间任务（几何、分割）上均表现竞争力，无需任务特定的微调。
稳定的长程特征传播： 证明递归更新在长序列上保持一致性，解决了普通递归网络中常见的漂移问题。
定性洞察： 可视化结果显示 RVM 捕获了场景语义、运动模式和结构线索，证实所学习的嵌入既丰富又可解释。

方法论

Backbone encoder（主干编码器）： 使用标准的 Vision Transformer（ViT）对每一帧视频独立处理，生成密集的 patch 嵌入网格。
Recurrent aggregation（递归聚合）： 一个轻量级的 transformer‑style 递归模块接收当前帧的嵌入以及前一帧的隐藏状态，并通过 cross‑attention（交叉注意力） 更新隐藏状态。这样即可获得当前帧的时序感知表示，同时保持计算成本 O(T·N)（T = 帧数，N = patch 数）。
Masked reconstruction objective（遮蔽重建目标）： 对于每个训练片段，随机遮蔽一部分未来的 patch。模型必须依据未遮蔽的 patch 与递归隐藏状态重建缺失的像素值，使用简单的 L2 像素损失。由于仅遮蔽未来，网络学习预测即将出现的视觉内容，隐式捕获运动和时间上下文。
Training regime（训练方案）： 不使用额外的监督（如光流、标签）或知识蒸馏技巧。模型在大规模视频数据集（例如 Kinetics‑400）上进行训练，并使用标准的数据增强。
Fine‑tuning（微调）： 预训练完成后，递归编码器可以冻结或在下游任务上进行微调。对于分类任务，直接接一个简单的线性头；对于跟踪任务，将密集嵌入送入轻量级相关性跟踪器。

Results & Findings

基准	RVM (small)	VideoMAE (large)	V‑JEPA	DINOv2 (image)
Kinetics‑400 Top‑1（微调）	78.3 %	80.1 %	79.5 %	–
Something‑Something‑V2（动作）	61.2 %	62.8 %	62.0 %	–
UAV123（目标跟踪）	71.5 % AO	70.9 % AO	70.2 % AO	–
COCO‑Stuff（密集分割）	45.8 % mIoU	–	–	44.7 % mIoU
参数量	22 M	86 M	84 M	300 M (ViT‑L)

竞争性的准确率，尽管模型规模比 VideoMAE/V‑JEPA 小 3–4 倍。
线性扩展性：推理时间随视频长度线性增长，不同于全时空注意力的立方增长。
稳健的长程预测：特征相似度在 60 帧范围内保持高于 0.85（余弦相似度），表明时间传播稳定。
定性分析：注意力图突出移动物体和场景布局，验证模型同时学习了运动线索和几何结构。

实际意义

边缘与移动部署: 小参数、线性时间的设计使 RVM 非常适合在设备端进行视频分析（例如在智能手机或无人机上进行实时动作检测）。
统一流水线: 团队可以使用单一的预训练编码器来完成多种下游任务——分类、跟踪、分割——从而降低工程开销和存储成本。
可扩展的视频索引: 由于循环编码器能够逐帧处理流媒体，它自然适用于视频搜索或内容审核的流式管道，无需缓存大段视频。
加速研究原型: 简单的像素重建损失消除了昂贵的多任务预训练或教师模型的需求，使得在新视频数据集上快速迭代成为可能。
多模态扩展的潜力: 循环骨干网络可以与音频或文本流结合，为统一的视频‑音频‑文本表征学习提供了在计算量极小的情况下的可能性。

局限性与未来工作

掩码策略仍然是均匀随机： 更复杂的时空掩码（例如，运动感知的）可能进一步提升性能。
未显式处理可变帧率： 循环模块假设固定的时间步幅；若要适应不规则的视频捕获，需要额外的时间建模。
基准测试仅限于相对较短的片段： 虽然循环设计具有线性扩展性，但对超长视频（例如，数小时的监控）的实证评估仍有待探索。
未来方向：作者提出的包括将层次化循环（多尺度时间状态）集成进来，将 RVM 与对比目标结合以获得更好的跨模态对齐，以及将框架扩展到自监督视频字幕生成或需要紧凑、时序感知视觉嵌入的强化学习代理。

作者

Daniel Zoran
Nikhil Parthasarathy
Yi Yang
Drew A Hudson
Joao Carreira
Andrew Zisserman

论文信息

arXiv ID: 2512.13684v1
分类: cs.CV
出版日期: 2025年12月15日
PDF: 下载 PDF

【论文】循环视频掩码自编码器

概览

关键贡献

方法论

Results & Findings

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] DiffusionBrowser：通过多分支解码器实现交互式 Diffusion 预览

[Paper] LitePT：更轻更强的 Point Transformer

[Paper] 面向可扩展的视觉 Tokenizer 预训练用于生成

[Paper] I-Scene：3D 实例模型是隐式可泛化空间学习者