[Paper] 探索高阶自相似性用于视频理解

发布: 1天前 (2026年4月23日 GMT+8 00:48)

7 分钟阅读

原文: arXiv

Source: arXiv - 2604.20760v1

概述

论文 “Exploring High‑Order Self‑Similarity for Video Understanding” 提出了一种新方法，通过观察 自相似性 不仅在两帧之间，而是在多个时间尺度上，来捕捉视频中的运动模式。通过堆叠这些 “higher‑order” 相似性图，作者构建了一个轻量级插件——Multi‑Order Self‑Similarity (MOSS)——可以直接嵌入现有视频模型，几乎不增加计算量即可提升其时间推理能力。

关键贡献

Higher‑order space‑time self‑similarity (STSS): 表明阶数 > 1 的相似性图能够揭示补充的运动线索（例如加速度、周期性），而一阶 STSS 无法捕获。
MOSS module: 一个紧凑的神经模块，用于提取、学习并融合多阶 STSS 特征；可附加到任何主干网络（CNN、Transformer 等）。
Broad empirical validation: 在三个截然不同的任务——动作分类、以运动为中心的视频 VQA，以及真实世界机器人感知——上展示出一致的提升，同时仅增加 < 2 % 的 FLOPs 和 < 5 MB 的内存。
Open‑source release: 提供代码、预训练检查点以及一个简易 API，便于将 MOSS 接入流行的视频库（PyTorchVideo、MMAction2）。

方法论

时空自相似性（STSS）： 对于视频张量 (X \in \mathbb{R}^{T \times H \times W \times C})，一阶 STSS 通过将每个时空补丁与所有其他补丁进行相关计算，得到一个四维相似性体积。
高阶 STSS： 作者递归地在相似性体积本身上再次应用相同的相关操作。
- 二阶 STSS 捕捉相似性模式随时间的演变（例如，加速运动的物体）。
- 三阶及更高阶可以建模更复杂的动态，如振荡或重复手势。
MOSS 模块：
- 提取： 一组 1×1 卷积将每个 STSS 阶的维度降至更低。
- 学习： 独立的轻量 MLP（或深度可分离卷积）学习针对特定阶的嵌入。
- 融合： 将学习到的嵌入进行求和/拼接，并通过最终的线性层，生成与主干网络兼容的时间特征图。
集成： MOSS 可以插入任意中间特征阶段之后（例如，ResNet‑3D 块或 Vision Transformer token mixer 之后）。由于相似性计算是在已提取的特征上进行，额外开销相对有限。

结果与发现

任务	基线	+MOSS	Δ（绝对值）	Δ（相对值）
Kinetics‑400（动作识别）	78.2 % top‑1	80.5 %	+2.3 %	+2.9 %
MSRVTT‑QA（以运动为中心的 VQA）	44.1 %	47.8 %	+3.7 %	+8.4 %
Real‑world robot grasping（仿真到真实）	71.5 % 成功率	76.2 %	+4.7 %	+6.6 %
计算开销	—	+1.8 % FLOPs	—	—
内存增加	—	+4.2 MB	—	—

要点: 在非常不同的领域中，加入 MOSS 可实现 持续的两位数相对提升，且模型仍保持轻量。消融实验表明每个阶次都有独特贡献——去除二阶项会导致性能下降约 1 %，去除三阶项则再降低约 0.5 %。

Practical Implications

Plug‑and‑play temporal boost: 开发者可以通过插入单个 MOSS 层来升级现有视频流水线（例如视频分析、AR/VR 内容审核），无需重新设计整个架构。
Edge‑friendly: 仅有的 FLOP 与内存增量使得 MOSS 适用于智能手机、无人机或嵌入式机器人平台等对功耗预算严格的设备上进行端侧推理。
Better motion reasoning for downstream AI: 依赖细微动态的任务——手势控制、体育分析、自动导航——可以受益于更高阶 STSS 提供的更丰富的时间特征描述。
Unified code base: 由于作者发布了一个带有简洁 MOSS(in_channels, orders=[1,2,3]) API 的 PyTorch 模块，将其集成到 Detectron2‑Video 或 TensorFlow Hub 等框架中非常直接。

限制与未来工作

对超长视频的可扩展性： 计算相似性体积随帧数呈二次增长；当前实现将帧数上限设为约 32 帧，并对更长的片段使用时间下采样。
阶数选择是启发式的： 论文实验到三阶 STSS；更高阶可能捕获更丰富的动态，但也会增加过拟合风险和计算成本。如何自适应地为每段视频选择最优阶数仍是未解之题。
领域特定调优： 虽然 MOSS 在多个基准上开箱即用，但最佳的放置位置（即 backbone 的哪个阶段）和超参数仍需进行适度的任务特定调优。

未来方向 包括高效近似（例如相似性张量的低秩分解）、推理时的动态阶数调度，以及将 MOSS 拓展到多模态流（音视频自相似性）。

如果你正在构建以视频为中心的产品并希望在时间建模上快速取得成效，试试 MOSS——其轻量级的 footprint 和显著的实证提升，使其成为现代视频 AI 堆栈的有力补充。

作者

Manjin Kim
Heeseung Kwon
Karteek Alahari
Minsu Cho

论文信息

arXiv ID: 2604.20760v1
分类: cs.CV
发表时间: 2026年4月22日
PDF: Download PDF

[Paper] 探索高阶自相似性用于视频理解

概述

关键贡献

方法论

结果与发现

Practical Implications

限制与未来工作

作者

论文信息

相关文章

[Paper] 观察快与慢：学习视频中的时间流动

[论文] 无眼观察：来自可穿戴IMU的4D人类场景理解

[Paper] Vista4D：视频重新拍摄与4D点云

[Paper] 当提示取代视觉时：提示诱导的幻觉在 LVLMs 中