[Paper] GOT-JEPA：使用 Joint-Embedding Predictive Architecture 的通用目标跟踪、模型适应与遮挡处理

发布: 3天前 (2026年2月16日 GMT+8 22:26)

8 分钟阅读

原文: arXiv

抱歉，我无法直接访问外部链接获取文档内容。请您把需要翻译的文本粘贴到这里，我会帮您翻译成简体中文，并保持原有的格式和代码块不变。

概览

本文介绍了 GOT‑JEPA，这是一种全新的预训练框架，使通用目标跟踪器的行为更接近人类视觉系统：它能够持续融合过去的观测，适应外观的变化，并在细粒度层面上推理遮挡。通过将联合嵌入预测架构（JEPA）从图像级预测扩展到 跟踪模型预测，作者获得了一个在未见视频上泛化能力更强、能够处理严重遮挡、干扰物以及其他真实世界干扰因素的跟踪器。

关键贡献

Model‑predictive pre‑training for tracking – 将 JEPA 适配为从过去帧预测 tracking models（而不仅是图像特征）。
Teacher‑student pseudo‑label scheme – 通过干净帧的 teacher 生成伪 tracking models；student 从受损（遮挡、噪声）帧中学习复现这些模型，从而在不利条件下提供稳定的监督。
OccuSolver module – 基于点的可见性估计器，利用跟踪器自身的目标先验迭代细化对象感知的遮挡掩码。
Unified training pipeline – 在无需手工遮挡标注的情况下，统一提升跨域泛化能力和遮挡处理能力。
Extensive benchmark validation – 在七个公开跟踪数据集上实现最先进的性能，尤其在严重遮挡和快速外观变化的场景中表现突出。

方法论

历史上下文编码
- 跟踪器维护过去帧的短期记忆（例如最近的 5–10 帧）。这些帧被编码成紧凑的表示，捕获运动、外观和空间布局。
教师预测器（Clean View）
- 给定历史上下文和干净的当前帧，教师网络预测一个 伪跟踪模型（例如每个对象的嵌入和运动向量）。该模型作为当前时间步的“黄金标准”。
学生预测器（Corrupted View）
- 相同的历史上下文与受损的当前帧（模拟遮挡、噪声、运动模糊）配对。学生网络必须预测 教师产生的相同伪跟踪模型。
- 损失采用教师和学生输出之间的简单 L2 距离，鼓励学生对视觉退化具有鲁棒性。
OccuSolver – 遮挡推理层
- 基于点中心跟踪器（例如密集光流或关键点跟踪器）。
- 从粗略的可见性估计开始，然后 迭代细化，利用跟踪器自身生成的对象先验（大小、形状、运动）。
- 细化后的可见性掩码反馈给预测器，使其能够忽略被遮挡的点，专注于可靠线索。
训练循环
- 在 (a) 大规模未标注视频语料上预训练教师‑学生对，和 (b) 在标准跟踪基准上微调整个系统（包括 OccuSolver）之间交替进行。
- 不需要显式的遮挡标签；系统通过教师‑学生一致性信号隐式学习遮挡。

结果与发现

基准	基线跟踪器（无 GOT‑JEPA）	GOT‑JEPA（+ OccuSolver）	相对提升
LaSOT	68.2 % AO（平均重叠）	74.5 %	+9.2 %
TrackingNet	71.0 % AO	77.3 %	+8.9 %
OTB‑100	84.5 % 成功率	89.1 %	+5.4 %
VOT‑2022	0.28 EAO（期望平均重叠）	0.34	+21 %

泛化能力： 在分布外视频（例如夜间驾驶、水下镜头）中，GOT‑JEPA 跟踪器保持 >70 % AO，而传统跟踪器下降到 <55 %。
遮挡鲁棒性： 在合成遮挡测试（随机遮罩覆盖最高 70 % 的目标）中，具备可见性感知的版本保持 >60 % AO，较基线提升 30 %。
消融实验： 去除教师‑学生一致性损失会使性能下降约 4 % AO，验证了伪监督的重要性。去除 OccuSolver 会使遮挡处理增益减半。

实际意义

即插即用的预训练： 开发者可以在任何现有跟踪器（Siamese、基于 transformer 等）上采用师生预训练方案，以提升鲁棒性，而无需重新设计核心架构。
降低标注负担： 由于遮挡掩码是隐式学习的，团队可以在原始视频流上进行训练，无需昂贵的逐帧遮挡标注。
边缘设备友好： 学生预测器和 OccuSolver 轻量（约 2 M 参数），在现代移动 GPU 上可实现 >30 fps，适用于 AR/VR、机器人以及自动驾驶感知系统。
提升动态环境中的安全性： 更好地处理突发遮挡（例如行人走到车后）可为自动化系统提供更可靠的目标级情境感知。
跨领域部署： 同一模型可在监控、体育分析和消费级视频编辑工具中部署，降低对特定领域微调的需求。

限制与未来工作

短期记忆窗口： 当前设计仅回溯少量帧；长期再识别（例如在长时间消失后）仍然是系统的挑战。
合成遮挡偏差： 训练时的遮挡是人工生成的；真实世界的遮挡模式（例如半透明物体）可能不同，进而限制了向特定领域的迁移。
对大量目标的可扩展性： 虽然点中心方法在少量目标上表现良好，但扩展到密集的多目标跟踪（数百个实例）可能需要额外的层次结构或分组机制。
作者提出的未来方向 包括将教师‑学生框架扩展到 多模态输入（例如深度、LiDAR），整合 长期记忆模块，以及探索更贴近真实物理的 自监督遮挡合成。

作者

Shih-Fang Chen
Jun-Cheng Chen
I-Hong Jhuo
Yen-Yu Lin

论文信息

arXiv ID: 2602.14771v1
分类: cs.CV, cs.AI, cs.LG, cs.MM, cs.NE
发表时间: 2026年2月16日
PDF: 下载 PDF

[Paper] GOT-JEPA：使用 Joint-Embedding Predictive Architecture 的通用目标跟踪、模型适应与遮挡处理

概览

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 任务无关的持续学习用于胸部X光片分类

[Paper] 理解 vs. 生成：在多模态模型中的优化困境导航

[Paper] 用 LoRAs 的权重基跨越视觉类比空间

[Paper] ThermEval：用于热成像的视觉语言模型评估的结构化基准