[Paper] GOT-JEPA:使用 Joint-Embedding Predictive Architecture 的通用目标跟踪、模型适应与遮挡处理
发布: (2026年2月16日 GMT+8 22:26)
8 分钟阅读
原文: arXiv
抱歉,我无法直接访问外部链接获取文档内容。请您把需要翻译的文本粘贴到这里,我会帮您翻译成简体中文,并保持原有的格式和代码块不变。
概览
本文介绍了 GOT‑JEPA,这是一种全新的预训练框架,使通用目标跟踪器的行为更接近人类视觉系统:它能够持续融合过去的观测,适应外观的变化,并在细粒度层面上推理遮挡。通过将联合嵌入预测架构(JEPA)从图像级预测扩展到 跟踪模型预测,作者获得了一个在未见视频上泛化能力更强、能够处理严重遮挡、干扰物以及其他真实世界干扰因素的跟踪器。
关键贡献
- Model‑predictive pre‑training for tracking – 将 JEPA 适配为从过去帧预测 tracking models(而不仅是图像特征)。
- Teacher‑student pseudo‑label scheme – 通过干净帧的 teacher 生成伪 tracking models;student 从受损(遮挡、噪声)帧中学习复现这些模型,从而在不利条件下提供稳定的监督。
- OccuSolver module – 基于点的可见性估计器,利用跟踪器自身的目标先验迭代细化对象感知的遮挡掩码。
- Unified training pipeline – 在无需手工遮挡标注的情况下,统一提升跨域泛化能力和遮挡处理能力。
- Extensive benchmark validation – 在七个公开跟踪数据集上实现最先进的性能,尤其在严重遮挡和快速外观变化的场景中表现突出。
方法论
-
历史上下文编码
- 跟踪器维护过去帧的短期记忆(例如最近的 5–10 帧)。这些帧被编码成紧凑的表示,捕获运动、外观和空间布局。
-
教师预测器(Clean View)
- 给定历史上下文和 干净 的当前帧,教师网络预测一个 伪跟踪模型(例如每个对象的嵌入和运动向量)。该模型作为当前时间步的“黄金标准”。
-
学生预测器(Corrupted View)
- 相同的历史上下文与 受损 的当前帧(模拟遮挡、噪声、运动模糊)配对。学生网络必须预测 教师产生的相同伪跟踪模型。
- 损失采用教师和学生输出之间的简单 L2 距离,鼓励学生对视觉退化具有鲁棒性。
-
OccuSolver – 遮挡推理层
- 基于点中心跟踪器(例如密集光流或关键点跟踪器)。
- 从粗略的可见性估计开始,然后 迭代细化,利用跟踪器自身生成的对象先验(大小、形状、运动)。
- 细化后的可见性掩码反馈给预测器,使其能够忽略被遮挡的点,专注于可靠线索。
-
训练循环
- 在 (a) 大规模未标注视频语料上预训练教师‑学生对,和 (b) 在标准跟踪基准上微调整个系统(包括 OccuSolver)之间交替进行。
- 不需要显式的遮挡标签;系统通过教师‑学生一致性信号隐式学习遮挡。
结果与发现
| 基准 | 基线跟踪器(无 GOT‑JEPA) | GOT‑JEPA(+ OccuSolver) | 相对提升 |
|---|---|---|---|
| LaSOT | 68.2 % AO(平均重叠) | 74.5 % | +9.2 % |
| TrackingNet | 71.0 % AO | 77.3 % | +8.9 % |
| OTB‑100 | 84.5 % 成功率 | 89.1 % | +5.4 % |
| VOT‑2022 | 0.28 EAO(期望平均重叠) | 0.34 | +21 % |
- 泛化能力: 在分布外视频(例如夜间驾驶、水下镜头)中,GOT‑JEPA 跟踪器保持 >70 % AO,而传统跟踪器下降到 <55 %。
- 遮挡鲁棒性: 在合成遮挡测试(随机遮罩覆盖最高 70 % 的目标)中,具备可见性感知的版本保持 >60 % AO,较基线提升 30 %。
- 消融实验: 去除教师‑学生一致性损失会使性能下降约 4 % AO,验证了伪监督的重要性。去除 OccuSolver 会使遮挡处理增益减半。
实际意义
- 即插即用的预训练: 开发者可以在任何现有跟踪器(Siamese、基于 transformer 等)上采用师生预训练方案,以提升鲁棒性,而无需重新设计核心架构。
- 降低标注负担: 由于遮挡掩码是隐式学习的,团队可以在原始视频流上进行训练,无需昂贵的逐帧遮挡标注。
- 边缘设备友好: 学生预测器和 OccuSolver 轻量(约 2 M 参数),在现代移动 GPU 上可实现 >30 fps,适用于 AR/VR、机器人以及自动驾驶感知系统。
- 提升动态环境中的安全性: 更好地处理突发遮挡(例如行人走到车后)可为自动化系统提供更可靠的目标级情境感知。
- 跨领域部署: 同一模型可在监控、体育分析和消费级视频编辑工具中部署,降低对特定领域微调的需求。
限制与未来工作
- 短期记忆窗口: 当前设计仅回溯少量帧;长期再识别(例如在长时间消失后)仍然是系统的挑战。
- 合成遮挡偏差: 训练时的遮挡是人工生成的;真实世界的遮挡模式(例如半透明物体)可能不同,进而限制了向特定领域的迁移。
- 对大量目标的可扩展性: 虽然点中心方法在少量目标上表现良好,但扩展到密集的多目标跟踪(数百个实例)可能需要额外的层次结构或分组机制。
- 作者提出的未来方向 包括将教师‑学生框架扩展到 多模态输入(例如深度、LiDAR),整合 长期记忆模块,以及探索更贴近真实物理的 自监督遮挡合成。
作者
- Shih-Fang Chen
- Jun-Cheng Chen
- I-Hong Jhuo
- Yen-Yu Lin
论文信息
- arXiv ID: 2602.14771v1
- 分类: cs.CV, cs.AI, cs.LG, cs.MM, cs.NE
- 发表时间: 2026年2月16日
- PDF: 下载 PDF