[Paper] 重新利用 Video Diffusion Transformers 实现鲁棒点跟踪

发布: 1个月前 (2025年12月24日 GMT+8 02:54)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.20606v1

概述

本文介绍了 DiTracker，这是一种全新的点跟踪系统，它重新利用了视频扩散变换器（DiTs）——最初为视频生成而训练的模型——来定位视频帧之间的匹配点。通过利用 DiTs 中固有的时空注意力机制，作者在快速运动、遮挡以及其他真实世界挑战下实现了更可靠的跟踪，并在多个基准套件上创下了新纪录。

关键贡献

发现潜在的跟踪能力 在预训练的视频 Diffusion Transformers 中，表明它们已经编码了稳健的时空对应关系。
DiTracker 架构 将 DiT 特征与轻量级查询‑键注意力模块耦合用于点匹配。
参数高效适配 使用 LoRA（低秩适配）微调，仅需原模型参数的一小部分。
混合成本融合 将 DiT 派生的匹配分数与传统 ResNet 主干融合，提高鲁棒性且不牺牲速度。
最先进的结果 在 ITTO 和 TAP‑Vid 点跟踪基准上取得领先，同时训练时的批量大小比以往方法小 8 倍。

方法论

Backbone selection – 作者从在大规模、多样化视频数据集（例如 ImageNet‑VID、Kinetics）上预训练的 video Diffusion Transformer 开始。这些模型已经能够对完整视频片段进行全时空自注意力处理。
Query‑Key attention matching – 对于每个待跟踪的点，从参考帧中提取 query 向量，而 key 向量则取自后续帧的每个像素。通过点积注意力操作得到密集相似度图，从中选取最佳匹配。
LoRA fine‑tuning – 为避免更新整个 DiT（计算成本高），作者在注意力层中注入低秩适配矩阵。仅增加数十万可训练参数，使得在跟踪任务上能够快速收敛。
Cost fusion with ResNet – 为捕获 DiT 可能忽略的细粒度局部纹理，使用轻量级 ResNet 主干对每帧独立处理。其匹配代价与 DiT 代价线性融合，得到兼顾全局上下文和局部细节的最终相似度分数。
Training regime – 系统在标准点跟踪数据集上使用对比损失进行训练，鼓励正确对应拥有最高相似度。尽管批量大小比竞争方法小 8 倍，基于 LoRA 的适配仍能快速收敛。

结果与发现

基准	指标（数值越高越好）	DiTracker	先前 SOTA
ITTO（严重遮挡与运动）	PCK@0.1	0.78	0.71
TAP‑Vid（多种运动类型）	AUC	0.84	0.82
推理速度	FPS（1080 Ti）	45	30‑35

对遮挡的鲁棒性：得益于 DiT 的长程时间上下文，DiTracker 即使在点消失数帧的情况下仍能保持高匹配得分。
数据效率：在批量大小比之前小 8 倍、可训练参数显著更少的情况下实现 SOTA，表明预训练的 DiT 已经包含了大部分所需知识。
消融研究：去除 ResNet 组件会导致性能下降约 4 %，验证了局部 CNN 特征的互补作用。LoRA 微调相较于仅使用冻结的 DiT 特征可提升约 5 % 的增益。

实际意义

Video editing tools – 准确的点跟踪是轮廓描绘、对象移除和动态图形的基础。DiTracker 的鲁棒性意味着在处理抖动或遮挡镜头时，编辑者需要的手动校正更少。
Robotics & AR – 对移动物体（例如手部、工具）上的关键点进行实时跟踪，可在无需专用传感器的情况下提升姿态估计管线。轻量化的 LoRA 适配使模型能够在边缘 GPU 上部署。
3‑D reconstruction pipelines – 更好的点对应直接转化为更清晰的结构光束法（structure‑from‑motion）和多视图立体（multi‑view stereo）结果，降低昂贵后处理的需求。
Foundation model reuse – 本工作展示了将大型视频生成模型转化为感知模块的实用方案，鼓励社区将基于扩散的视频 Transformer 视作通用视频骨干网络。

限制与未来工作

Memory footprint – Full‑resolution DiT attention 仍然需要大量 GPU 内存，限制了在极低端设备上的部署。
Domain shift – 虽然在多样化视频上进行 pre‑training 有所帮助，但极端的领域差距（例如医学内镜、卫星影像）可能仍需额外的 fine‑tuning。
Temporal horizon – 当前实现只能处理短片段（≈8 帧）。扩展时间窗口有望进一步提升对长期遮挡的处理能力。
Future directions 作者提出的后续工作包括探索用于多尺度跟踪的 hierarchical DiT variants、集成显式 motion priors，以及通过 distillation 对模型进行压缩，以实现 mobile‑first 应用。

作者

Soowon Son
Honggyu An
Chaehyun Kim
Hyunah Ko
Jisu Nam
Dahyun Chung
Siyoon Jin
Jung Yi
Jaewon Min
Junhwa Hur
Seungryong Kim

论文信息

arXiv ID: 2512.20606v1
类别: cs.CV
出版日期: 2025年12月23日
PDF: 下载 PDF

[Paper] 重新利用 Video Diffusion Transformers 实现鲁棒点跟踪

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 少看，准看：双向感知塑形用于多模态推理

[Paper] ProEdit：基于反演的编辑，从 Prompt 正确实现

[Paper] 通过轨迹-检测匹配学习关联用于多目标跟踪

[Paper] Yume-1.5：文本控制的交互式世界生成模型