[Paper] 重新利用 Video Diffusion Transformers 实现鲁棒点跟踪
发布: (2025年12月24日 GMT+8 02:54)
7 min read
原文: arXiv
Source: arXiv - 2512.20606v1
概述
本文介绍了 DiTracker,这是一种全新的点跟踪系统,它重新利用了视频扩散变换器(DiTs)——最初为视频生成而训练的模型——来定位视频帧之间的匹配点。通过利用 DiTs 中固有的时空注意力机制,作者在快速运动、遮挡以及其他真实世界挑战下实现了更可靠的跟踪,并在多个基准套件上创下了新纪录。
关键贡献
- 发现潜在的跟踪能力 在预训练的视频 Diffusion Transformers 中,表明它们已经编码了稳健的时空对应关系。
- DiTracker 架构 将 DiT 特征与轻量级查询‑键注意力模块耦合用于点匹配。
- 参数高效适配 使用 LoRA(低秩适配)微调,仅需原模型参数的一小部分。
- 混合成本融合 将 DiT 派生的匹配分数与传统 ResNet 主干融合,提高鲁棒性且不牺牲速度。
- 最先进的结果 在 ITTO 和 TAP‑Vid 点跟踪基准上取得领先,同时训练时的批量大小比以往方法小 8 倍。
方法论
- Backbone selection – 作者从在大规模、多样化视频数据集(例如 ImageNet‑VID、Kinetics)上预训练的 video Diffusion Transformer 开始。这些模型已经能够对完整视频片段进行全时空自注意力处理。
- Query‑Key attention matching – 对于每个待跟踪的点,从参考帧中提取 query 向量,而 key 向量则取自后续帧的每个像素。通过点积注意力操作得到密集相似度图,从中选取最佳匹配。
- LoRA fine‑tuning – 为避免更新整个 DiT(计算成本高),作者在注意力层中注入低秩适配矩阵。仅增加数十万可训练参数,使得在跟踪任务上能够快速收敛。
- Cost fusion with ResNet – 为捕获 DiT 可能忽略的细粒度局部纹理,使用轻量级 ResNet 主干对每帧独立处理。其匹配代价与 DiT 代价线性融合,得到兼顾全局上下文和局部细节的最终相似度分数。
- Training regime – 系统在标准点跟踪数据集上使用对比损失进行训练,鼓励正确对应拥有最高相似度。尽管批量大小比竞争方法小 8 倍,基于 LoRA 的适配仍能快速收敛。
结果与发现
| 基准 | 指标(数值越高越好) | DiTracker | 先前 SOTA |
|---|---|---|---|
| ITTO(严重遮挡与运动) | PCK@0.1 | 0.78 | 0.71 |
| TAP‑Vid(多种运动类型) | AUC | 0.84 | 0.82 |
| 推理速度 | FPS(1080 Ti) | 45 | 30‑35 |
- 对遮挡的鲁棒性:得益于 DiT 的长程时间上下文,DiTracker 即使在点消失数帧的情况下仍能保持高匹配得分。
- 数据效率:在批量大小比之前小 8 倍、可训练参数显著更少的情况下实现 SOTA,表明预训练的 DiT 已经包含了大部分所需知识。
- 消融研究:去除 ResNet 组件会导致性能下降约 4 %,验证了局部 CNN 特征的互补作用。LoRA 微调相较于仅使用冻结的 DiT 特征可提升约 5 % 的增益。
实际意义
- Video editing tools – 准确的点跟踪是轮廓描绘、对象移除和动态图形的基础。DiTracker 的鲁棒性意味着在处理抖动或遮挡镜头时,编辑者需要的手动校正更少。
- Robotics & AR – 对移动物体(例如手部、工具)上的关键点进行实时跟踪,可在无需专用传感器的情况下提升姿态估计管线。轻量化的 LoRA 适配使模型能够在边缘 GPU 上部署。
- 3‑D reconstruction pipelines – 更好的点对应直接转化为更清晰的结构光束法(structure‑from‑motion)和多视图立体(multi‑view stereo)结果,降低昂贵后处理的需求。
- Foundation model reuse – 本工作展示了将大型视频生成模型转化为感知模块的实用方案,鼓励社区将基于扩散的视频 Transformer 视作通用视频骨干网络。
限制与未来工作
- Memory footprint – Full‑resolution DiT attention 仍然需要大量 GPU 内存,限制了在极低端设备上的部署。
- Domain shift – 虽然在多样化视频上进行 pre‑training 有所帮助,但极端的领域差距(例如医学内镜、卫星影像)可能仍需额外的 fine‑tuning。
- Temporal horizon – 当前实现只能处理短片段(≈8 帧)。扩展时间窗口有望进一步提升对长期遮挡的处理能力。
- Future directions 作者提出的后续工作包括探索用于多尺度跟踪的 hierarchical DiT variants、集成显式 motion priors,以及通过 distillation 对模型进行压缩,以实现 mobile‑first 应用。
作者
- Soowon Son
- Honggyu An
- Chaehyun Kim
- Hyunah Ko
- Jisu Nam
- Dahyun Chung
- Siyoon Jin
- Jung Yi
- Jaewon Min
- Junhwa Hur
- Seungryong Kim
论文信息
- arXiv ID: 2512.20606v1
- 类别: cs.CV
- 出版日期: 2025年12月23日
- PDF: 下载 PDF