[Paper] GOT-JEPA:使用 Joint-Embedding Predictive Architecture 的通用目标跟踪、模型适应与遮挡处理

发布: (2026年2月16日 GMT+8 22:26)
8 分钟阅读
原文: arXiv

抱歉,我无法直接访问外部链接获取文档内容。请您把需要翻译的文本粘贴到这里,我会帮您翻译成简体中文,并保持原有的格式和代码块不变。

概览

本文介绍了 GOT‑JEPA,这是一种全新的预训练框架,使通用目标跟踪器的行为更接近人类视觉系统:它能够持续融合过去的观测,适应外观的变化,并在细粒度层面上推理遮挡。通过将联合嵌入预测架构(JEPA)从图像级预测扩展到 跟踪模型预测,作者获得了一个在未见视频上泛化能力更强、能够处理严重遮挡、干扰物以及其他真实世界干扰因素的跟踪器。

关键贡献

  • Model‑predictive pre‑training for tracking – 将 JEPA 适配为从过去帧预测 tracking models(而不仅是图像特征)。
  • Teacher‑student pseudo‑label scheme – 通过干净帧的 teacher 生成伪 tracking models;student 从受损(遮挡、噪声)帧中学习复现这些模型,从而在不利条件下提供稳定的监督。
  • OccuSolver module – 基于点的可见性估计器,利用跟踪器自身的目标先验迭代细化对象感知的遮挡掩码。
  • Unified training pipeline – 在无需手工遮挡标注的情况下,统一提升跨域泛化能力和遮挡处理能力。
  • Extensive benchmark validation – 在七个公开跟踪数据集上实现最先进的性能,尤其在严重遮挡和快速外观变化的场景中表现突出。

方法论

  1. 历史上下文编码

    • 跟踪器维护过去帧的短期记忆(例如最近的 5–10 帧)。这些帧被编码成紧凑的表示,捕获运动、外观和空间布局。
  2. 教师预测器(Clean View)

    • 给定历史上下文和 干净 的当前帧,教师网络预测一个 伪跟踪模型(例如每个对象的嵌入和运动向量)。该模型作为当前时间步的“黄金标准”。
  3. 学生预测器(Corrupted View)

    • 相同的历史上下文与 受损 的当前帧(模拟遮挡、噪声、运动模糊)配对。学生网络必须预测 教师产生的相同伪跟踪模型
    • 损失采用教师和学生输出之间的简单 L2 距离,鼓励学生对视觉退化具有鲁棒性。
  4. OccuSolver – 遮挡推理层

    • 基于点中心跟踪器(例如密集光流或关键点跟踪器)。
    • 从粗略的可见性估计开始,然后 迭代细化,利用跟踪器自身生成的对象先验(大小、形状、运动)。
    • 细化后的可见性掩码反馈给预测器,使其能够忽略被遮挡的点,专注于可靠线索。
  5. 训练循环

    • 在 (a) 大规模未标注视频语料上预训练教师‑学生对,和 (b) 在标准跟踪基准上微调整个系统(包括 OccuSolver)之间交替进行。
    • 不需要显式的遮挡标签;系统通过教师‑学生一致性信号隐式学习遮挡。

结果与发现

基准基线跟踪器(无 GOT‑JEPA)GOT‑JEPA(+ OccuSolver)相对提升
LaSOT68.2 % AO(平均重叠)74.5 %+9.2 %
TrackingNet71.0 % AO77.3 %+8.9 %
OTB‑10084.5 % 成功率89.1 %+5.4 %
VOT‑20220.28 EAO(期望平均重叠)0.34+21 %
  • 泛化能力: 在分布外视频(例如夜间驾驶、水下镜头)中,GOT‑JEPA 跟踪器保持 >70 % AO,而传统跟踪器下降到 <55 %。
  • 遮挡鲁棒性: 在合成遮挡测试(随机遮罩覆盖最高 70 % 的目标)中,具备可见性感知的版本保持 >60 % AO,较基线提升 30 %。
  • 消融实验: 去除教师‑学生一致性损失会使性能下降约 4 % AO,验证了伪监督的重要性。去除 OccuSolver 会使遮挡处理增益减半。

实际意义

  • 即插即用的预训练: 开发者可以在任何现有跟踪器(Siamese、基于 transformer 等)上采用师生预训练方案,以提升鲁棒性,而无需重新设计核心架构。
  • 降低标注负担: 由于遮挡掩码是隐式学习的,团队可以在原始视频流上进行训练,无需昂贵的逐帧遮挡标注。
  • 边缘设备友好: 学生预测器和 OccuSolver 轻量(约 2 M 参数),在现代移动 GPU 上可实现 >30 fps,适用于 AR/VR、机器人以及自动驾驶感知系统。
  • 提升动态环境中的安全性: 更好地处理突发遮挡(例如行人走到车后)可为自动化系统提供更可靠的目标级情境感知。
  • 跨领域部署: 同一模型可在监控、体育分析和消费级视频编辑工具中部署,降低对特定领域微调的需求。

限制与未来工作

  • 短期记忆窗口: 当前设计仅回溯少量帧;长期再识别(例如在长时间消失后)仍然是系统的挑战。
  • 合成遮挡偏差: 训练时的遮挡是人工生成的;真实世界的遮挡模式(例如半透明物体)可能不同,进而限制了向特定领域的迁移。
  • 对大量目标的可扩展性: 虽然点中心方法在少量目标上表现良好,但扩展到密集的多目标跟踪(数百个实例)可能需要额外的层次结构或分组机制。
  • 作者提出的未来方向 包括将教师‑学生框架扩展到 多模态输入(例如深度、LiDAR),整合 长期记忆模块,以及探索更贴近真实物理的 自监督遮挡合成

作者

  • Shih-Fang Chen
  • Jun-Cheng Chen
  • I-Hong Jhuo
  • Yen-Yu Lin

论文信息

  • arXiv ID: 2602.14771v1
  • 分类: cs.CV, cs.AI, cs.LG, cs.MM, cs.NE
  • 发表时间: 2026年2月16日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »