[Paper] CoWTracker: 通过变形而非相关进行跟踪

发布: (2026年2月5日 GMT+8 02:58)
6 min read
原文: arXiv

Source: arXiv - 2602.04877v1

概述

本文介绍了 CoWTracker,一种密集点跟踪系统,它用迭代 warping(变形)策略取代了传统的、昂贵的基于相关性的匹配。通过利用 transformer 进行联合时空推理,作者在多个跟踪基准上实现了最先进的精度,同时大幅降低了计算成本——使得密集跟踪在实时视频分析和机器人领域成为可行。

关键贡献

  • 基于变形而非相关的范式: 消除二次时间成本体积,实现高分辨率下可扩展的密集跟踪。
  • 迭代变形细化: 使用当前估计将目标帧特征反复变形到查询帧,类似于现代光流流水线。
  • 基于 Transformer 的联合推理: 单个 Transformer 同时处理所有点轨迹,实现长程时间一致性,无需对每条轨迹进行单独优化。
  • 统一性能: 在密集点跟踪数据集(TAP‑Vid‑DAVIS、TAP‑Vid‑Kinetics、Robo‑TAP)上创下新纪录,并在 Sintel、KITTI 和 Spring 上与专用光流方法竞争。
  • 简洁与高效: 架构紧凑,所需内存更少,运行速度快于基于相关的基线。

方法论

  1. 特征提取: CNN 主干从查询(源)帧和目标帧中提取密集特征图。
  2. 初始猜测: 用粗略估计(例如,恒等变形或简单运动模型)对点进行种子化。
  3. 迭代变形循环:
    • 当前点估计定义一个变形场,将目标帧特征拉入查询帧的坐标系。
    • 将变形后的特征与查询特征拼接后输入到 transformer 编码器。
    • transformer 通过在空间和时间上关注整套点,更新每个点的位移,从而共享上下文。
    • 使用更新后的位移重新计算下一次迭代的变形。
  4. 收敛: 在固定次数的迭代后(通常为 3–5 次),输出最终位移作为密集点轨迹。

由于该方法从不计算显式的成对相似度矩阵(代价体),每次迭代的时间复杂度相对于像素数呈线性,类似于 RAFT 等现代光流网络。

Results & Findings

  • Dense Tracking Benchmarks: CoWTracker 在 TAP‑Vid‑DAVIS 和 TAP‑Vid‑Kinetics 上的 J‑mean 绝对提升 3–7 %,并在面向机器人领域的 Robo‑TAP 数据集上实现了 20 % 的误差降低。
  • Optical Flow Competitiveness: 在 Sintel(final pass)上实现了 2.8 px 的 EPE,优于许多经典光流方法;在 KITTI 2015 上的异常率为 5.1 %,可与专用光流网络相媲美。
  • Efficiency Gains: 与基于相关性的基线相比,内存使用下降约 40 %,单块 RTX 3090 上的推理速度提升 1.8×,同时保持相似的精度。
  • Ablation Insights: 移除 transformer 或减少扭曲迭代次数会导致性能明显下降,验证了联合推理和迭代细化的必要性。

实际意义

  • 实时视频分析: 降低计算开销使得密集跟踪在实时视频流中可行,支持体育分析、AR/VR 动作捕捉以及监控等应用。
  • 机器人与操作: 精确、快速的点对应帮助机器人理解物体运动并规划抓取,尤其在传统稀疏关键点失效的杂乱或动态环境中。
  • 统一视觉流水线: 由于同一架构在密集跟踪和光流上均表现出色,开发者可以采用单一模型完成多种运动估计任务,简化部署和维护。
  • 边缘部署: 线性时间的扭曲方法降低内存压力,为在边缘设备(如 Jetson、智能手机)上运行密集跟踪以实现设备端视频编辑或 AR 覆盖打开了可能。

限制与未来工作

  • Iterative Convergence: 虽然 3–5 次迭代在基准测试中表现良好,但对于高度非刚性运动或大位移可能需要更多步骤,从而增加延迟。
  • Transformer Scaling: 全局注意力机制在超高分辨率帧上可能成为瓶颈;探索稀疏或层次化注意力有望缓解此问题。
  • Training Data Bias: 模型在合成和精选视频数据集上进行训练;在高度特定领域的影像(例如医学内镜)上的性能仍需验证。
  • Future Directions: 作者建议结合学习到的运动先验、多尺度扭曲以及自适应迭代次数,以进一步提升在多种场景下的速度和鲁棒性。

作者

  • Zihang Lai
  • Eldar Insafutdinov
  • Edgar Sucar
  • Andrea Vedaldi

论文信息

  • arXiv ID: 2602.04877v1
  • 分类: cs.CV
  • 出版日期: 2026年2月4日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »

[Paper] 强化注意力学习

通过强化学习(RL)进行后训练已显著提升了大语言模型(LLMs)的推理能力,尤其是在测试时的规模扩展方面。然而,扩展…