[Paper] 通过轨迹-检测匹配学习关联用于多目标跟踪

发布: (2025年12月27日 GMT+8 02:19)
7 min read
原文: arXiv

Source: arXiv - 2512.22105v1

Overview

本论文介绍了 Track‑Detection Link Prediction (TDLP),一种新的“检测后跟踪”框架,学习如何在视频帧之间拼接目标检测,而无需依赖手工制定的匹配规则。通过将关联问题视为链接预测任务,TDLP 弥合了经典快速跟踪器与重量级端到端模型之间的差距,在保持计算轻量的同时,提供了最先进的精度。

关键贡献

  • 链接预测公式化: 将每帧数据关联重新表述为在已有轨迹与新检测之间的监督链接预测问题。
  • 几何优先架构: 主要基于边界框坐标工作,同时易于扩展以融合姿态、外观或其他线索。
  • 基于学习的关联而非完整端到端管线: 消除手工启发式(如 IoU 阈值、运动模型),同时保持 tracking‑by‑detection 流程的模块化和高速性。
  • 全面的基准验证: 在多个公开 MOT 数据集上相较于传统 tracking‑by‑detection 基线和近期端到端跟踪器均表现出持续提升。
  • 链接预测与度量学习的实证分析: 证明链接预测在处理异构特征集(如原始框 + 姿态)时,比传统度量学习关联更具鲁棒性。

方法论

  1. 输入预处理 – 对于每个视频帧,检测器提供一组边界框(以及可选的姿态或外观嵌入)。
  2. 轨迹表示 – 每个活动轨迹存储其最近的几何状态(位置、大小、速度)和任何辅助特征。
  3. 链接预测网络 – 一个轻量级神经模块接收一对 (轨迹, 检测) 并输出检测是该轨迹真实延续的概率。网络使用二元交叉熵在带注释的视频序列的真实关联标签上进行训练。
  4. 逐帧关联 – 对于每个活动轨迹,模型为所有候选检测打分。简单的二分匹配(例如 Hungarian 算法)选择得分最高且不冲突的链接,而未匹配的检测会生成新轨迹,未匹配的轨迹在短暂宽限期后被终止。
  5. 模块化 – 因为链接预测器仅使用几何向量(以及可选的附加信息),它可以替换或与任何现成检测器结合,使整体流水线保持快速且易于集成。

结果与发现

  • 性能: 在 MOT17 基准上,TDLP 相比之前最佳的检测后跟踪方法提升 +3.2% MOTA,并且相较于最先进的端到端跟踪器提升 +1.5% MOTA,同时在单个 GPU 上的运行速度约为 ~30 FPS
  • 消融研究: 移除辅助线索(姿态、外观)会使性能略有下降(约 0.8% MOTA),这表明核心优势在于学习到的几何链接预测器。
  • 链接预测 vs. 度量学习: 实验显示,当混合异构特征时,基于度量学习的关联表现会下降,而链接预测的形式能够保持高精度,尤其在遮挡和突发运动情况下。
  • 可扩展性: 该方法随每帧检测数量线性扩展,适用于高密度场景(例如人群、交通)。

实际意义

  • 即插即用,适用于现有流水线: 开发者可以用 TDLP 链接预测器替换当前跟踪‑检测堆栈中的启发式关联模块,在无需重新设计整个系统的情况下实现显著的精度提升。
  • 适用于边缘部署: 该模型计算量小(仅几百万参数),能够在嵌入式 GPU(Jetson、Coral)上实现实时运行,适用于自主无人机、零售分析或智慧城市摄像头等场景。
  • 多模态数据的灵活性: 由于额外线索是可选的,TDLP 可适配外观不可靠(如红外、热成像)但几何信息仍然稳健的领域。
  • 开源代码: 作者提供了可直接运行的实现,包含训练脚本和预训练权重,降低了快速原型开发和研究可复现性的门槛。

限制与未来工作

  • 对检测器质量的依赖: 与任何基于检测的跟踪方法一样,如果上游检测器产生大量误报或漏检目标,TDLP 的性能会下降。
  • 时间上下文深度: 当前模型仅关注最近的轨迹状态;引入更长的运动历史(例如通过 LSTM 或 Transformer)可能提升对长期遮挡的处理能力。
  • 对丰富外观线索的探索有限: 虽然支持姿态和简单嵌入,但论文并未评估深度视觉特征(例如再识别嵌入),这些特征有望进一步增强在拥挤场景中的鲁棒性。
  • 未来方向 建议包括将链接预测网络扩展为图神经网络架构,以实现多轨道的联合推理,并研究自监督预训练,以降低对大规模标注 MOT 数据集的依赖。

作者

  • Momir Adžemović

论文信息

  • arXiv ID: 2512.22105v1
  • 类别: cs.CV
  • 出版时间: 2025年12月26日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »