【论文】循环视频掩码自编码器

发布: (2025年12月16日 GMT+8 02:59)
8 min read
原文: arXiv

Source: arXiv - 2512.13684v1

概览

本文介绍了 Recurrent Video Masked Autoencoders (RVM),这是一种使用基于 transformer 的循环网络在时间上聚合密集图像特征来学习视频表示的新方法。通过将学习框架设定为不对称的掩码像素重建任务,RVM 提供了一个单一的“通用”编码器,在动作识别和跟踪等最先进的视频模型上表现相当,同时在传统上由仅图像模型主导的密集空间任务上也表现出色。

关键贡献

  • 视频的递归架构: 用轻量级递归 Transformer 取代昂贵的全时空注意力,以帧‑逐帧的方式传播特征,使计算量随视频长度线性增长。
  • 非对称掩码预测: 仅对未来帧进行掩码,使模型能够通过简单的像素重建损失学习时间动态——无需额外的监督或蒸馏。
  • 参数效率: 小规模 RVM 模型在参数效率上比竞争性视频 MAE 方法高出 30 倍,同时在精度上持平或超越它们。
  • 统一编码器: 单一预训练骨干网络在 视频级任务(动作分类、点/目标跟踪)和 密集空间任务(几何、分割)上均表现竞争力,无需任务特定的微调。
  • 稳定的长程特征传播: 证明递归更新在长序列上保持一致性,解决了普通递归网络中常见的漂移问题。
  • 定性洞察: 可视化结果显示 RVM 捕获了场景语义、运动模式和结构线索,证实所学习的嵌入既丰富又可解释。

方法论

  1. Backbone encoder(主干编码器): 使用标准的 Vision Transformer(ViT)对每一帧视频独立处理,生成密集的 patch 嵌入网格。
  2. Recurrent aggregation(递归聚合): 一个轻量级的 transformer‑style 递归模块接收当前帧的嵌入以及前一帧的隐藏状态,并通过 cross‑attention(交叉注意力) 更新隐藏状态。这样即可获得当前帧的时序感知表示,同时保持计算成本 O(T·N)(T = 帧数,N = patch 数)。
  3. Masked reconstruction objective(遮蔽重建目标): 对于每个训练片段,随机遮蔽一部分 未来 的 patch。模型必须依据未遮蔽的 patch 与递归隐藏状态重建缺失的像素值,使用简单的 L2 像素损失。由于仅遮蔽未来,网络学习预测即将出现的视觉内容,隐式捕获运动和时间上下文。
  4. Training regime(训练方案): 不使用额外的监督(如光流、标签)或知识蒸馏技巧。模型在大规模视频数据集(例如 Kinetics‑400)上进行训练,并使用标准的数据增强。
  5. Fine‑tuning(微调): 预训练完成后,递归编码器可以冻结或在下游任务上进行微调。对于分类任务,直接接一个简单的线性头;对于跟踪任务,将密集嵌入送入轻量级相关性跟踪器。

Results & Findings

基准RVM (small)VideoMAE (large)V‑JEPADINOv2 (image)
Kinetics‑400 Top‑1(微调)78.3 %80.1 %79.5 %
Something‑Something‑V2(动作)61.2 %62.8 %62.0 %
UAV123(目标跟踪)71.5 % AO70.9 % AO70.2 % AO
COCO‑Stuff(密集分割)45.8 % mIoU44.7 % mIoU
参数量22 M86 M84 M300 M (ViT‑L)
  • 竞争性的准确率,尽管模型规模比 VideoMAE/V‑JEPA 小 3–4 倍。
  • 线性扩展性:推理时间随视频长度线性增长,不同于全时空注意力的立方增长。
  • 稳健的长程预测:特征相似度在 60 帧范围内保持高于 0.85(余弦相似度),表明时间传播稳定。
  • 定性分析:注意力图突出移动物体和场景布局,验证模型同时学习了运动线索和几何结构。

实际意义

  • 边缘与移动部署: 小参数、线性时间的设计使 RVM 非常适合在设备端进行视频分析(例如在智能手机或无人机上进行实时动作检测)。
  • 统一流水线: 团队可以使用单一的预训练编码器来完成多种下游任务——分类、跟踪、分割——从而降低工程开销和存储成本。
  • 可扩展的视频索引: 由于循环编码器能够逐帧处理流媒体,它自然适用于视频搜索或内容审核的流式管道,无需缓存大段视频。
  • 加速研究原型: 简单的像素重建损失消除了昂贵的多任务预训练或教师模型的需求,使得在新视频数据集上快速迭代成为可能。
  • 多模态扩展的潜力: 循环骨干网络可以与音频或文本流结合,为统一的视频‑音频‑文本表征学习提供了在计算量极小的情况下的可能性。

局限性与未来工作

  • 掩码策略仍然是均匀随机: 更复杂的时空掩码(例如,运动感知的)可能进一步提升性能。
  • 未显式处理可变帧率: 循环模块假设固定的时间步幅;若要适应不规则的视频捕获,需要额外的时间建模。
  • 基准测试仅限于相对较短的片段: 虽然循环设计具有线性扩展性,但对超长视频(例如,数小时的监控)的实证评估仍有待探索。
  • 未来方向:作者提出的包括将层次化循环(多尺度时间状态)集成进来,将 RVM 与对比目标结合以获得更好的跨模态对齐,以及将框架扩展到自监督视频字幕生成或需要紧凑、时序感知视觉嵌入的强化学习代理。

作者

  • Daniel Zoran
  • Nikhil Parthasarathy
  • Yi Yang
  • Drew A Hudson
  • Joao Carreira
  • Andrew Zisserman

论文信息

  • arXiv ID: 2512.13684v1
  • 分类: cs.CV
  • 出版日期: 2025年12月15日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »