[Paper] 重新利用 Video Diffusion Transformers 实现鲁棒点跟踪

发布: (2025年12月24日 GMT+8 02:54)
7 min read
原文: arXiv

Source: arXiv - 2512.20606v1

概述

本文介绍了 DiTracker,这是一种全新的点跟踪系统,它重新利用了视频扩散变换器(DiTs)——最初为视频生成而训练的模型——来定位视频帧之间的匹配点。通过利用 DiTs 中固有的时空注意力机制,作者在快速运动、遮挡以及其他真实世界挑战下实现了更可靠的跟踪,并在多个基准套件上创下了新纪录。

关键贡献

  • 发现潜在的跟踪能力 在预训练的视频 Diffusion Transformers 中,表明它们已经编码了稳健的时空对应关系。
  • DiTracker 架构 将 DiT 特征与轻量级查询‑键注意力模块耦合用于点匹配。
  • 参数高效适配 使用 LoRA(低秩适配)微调,仅需原模型参数的一小部分。
  • 混合成本融合 将 DiT 派生的匹配分数与传统 ResNet 主干融合,提高鲁棒性且不牺牲速度。
  • 最先进的结果 在 ITTO 和 TAP‑Vid 点跟踪基准上取得领先,同时训练时的批量大小比以往方法小 8 倍。

方法论

  1. Backbone selection – 作者从在大规模、多样化视频数据集(例如 ImageNet‑VID、Kinetics)上预训练的 video Diffusion Transformer 开始。这些模型已经能够对完整视频片段进行全时空自注意力处理。
  2. Query‑Key attention matching – 对于每个待跟踪的点,从参考帧中提取 query 向量,而 key 向量则取自后续帧的每个像素。通过点积注意力操作得到密集相似度图,从中选取最佳匹配。
  3. LoRA fine‑tuning – 为避免更新整个 DiT(计算成本高),作者在注意力层中注入低秩适配矩阵。仅增加数十万可训练参数,使得在跟踪任务上能够快速收敛。
  4. Cost fusion with ResNet – 为捕获 DiT 可能忽略的细粒度局部纹理,使用轻量级 ResNet 主干对每帧独立处理。其匹配代价与 DiT 代价线性融合,得到兼顾全局上下文和局部细节的最终相似度分数。
  5. Training regime – 系统在标准点跟踪数据集上使用对比损失进行训练,鼓励正确对应拥有最高相似度。尽管批量大小比竞争方法小 8 倍,基于 LoRA 的适配仍能快速收敛。

结果与发现

基准指标(数值越高越好)DiTracker先前 SOTA
ITTO(严重遮挡与运动)PCK@0.10.780.71
TAP‑Vid(多种运动类型)AUC0.840.82
推理速度FPS(1080 Ti)4530‑35
  • 对遮挡的鲁棒性:得益于 DiT 的长程时间上下文,DiTracker 即使在点消失数帧的情况下仍能保持高匹配得分。
  • 数据效率:在批量大小比之前小 8 倍、可训练参数显著更少的情况下实现 SOTA,表明预训练的 DiT 已经包含了大部分所需知识。
  • 消融研究:去除 ResNet 组件会导致性能下降约 4 %,验证了局部 CNN 特征的互补作用。LoRA 微调相较于仅使用冻结的 DiT 特征可提升约 5 % 的增益。

实际意义

  • Video editing tools – 准确的点跟踪是轮廓描绘、对象移除和动态图形的基础。DiTracker 的鲁棒性意味着在处理抖动或遮挡镜头时,编辑者需要的手动校正更少。
  • Robotics & AR – 对移动物体(例如手部、工具)上的关键点进行实时跟踪,可在无需专用传感器的情况下提升姿态估计管线。轻量化的 LoRA 适配使模型能够在边缘 GPU 上部署。
  • 3‑D reconstruction pipelines – 更好的点对应直接转化为更清晰的结构光束法(structure‑from‑motion)和多视图立体(multi‑view stereo)结果,降低昂贵后处理的需求。
  • Foundation model reuse – 本工作展示了将大型视频生成模型转化为感知模块的实用方案,鼓励社区将基于扩散的视频 Transformer 视作通用视频骨干网络。

限制与未来工作

  • Memory footprint – Full‑resolution DiT attention 仍然需要大量 GPU 内存,限制了在极低端设备上的部署。
  • Domain shift – 虽然在多样化视频上进行 pre‑training 有所帮助,但极端的领域差距(例如医学内镜、卫星影像)可能仍需额外的 fine‑tuning。
  • Temporal horizon – 当前实现只能处理短片段(≈8 帧)。扩展时间窗口有望进一步提升对长期遮挡的处理能力。
  • Future directions 作者提出的后续工作包括探索用于多尺度跟踪的 hierarchical DiT variants、集成显式 motion priors,以及通过 distillation 对模型进行压缩,以实现 mobile‑first 应用。

作者

  • Soowon Son
  • Honggyu An
  • Chaehyun Kim
  • Hyunah Ko
  • Jisu Nam
  • Dahyun Chung
  • Siyoon Jin
  • Jung Yi
  • Jaewon Min
  • Junhwa Hur
  • Seungryong Kim

论文信息

  • arXiv ID: 2512.20606v1
  • 类别: cs.CV
  • 出版日期: 2025年12月23日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »