[Paper] MANTA: 基于物理的通用水下目标跟踪

发布: (2025年11月29日 GMT+8 01:59)
7 min read
原文: arXiv

Source: arXiv - 2511.23405v1

概览

水下目标跟踪长期落后于陆地对应技术,因为水体的物理特性——波长相关的衰减和散射——会随着深度和水质的变化显著改变目标的外观。论文 “MANTA: Physics‑Informed Generalized Underwater Object Tracking” 通过将光传播的物理模型与现代深度学习跟踪相结合,提供了一套在多种水下场景中仍保持鲁棒性的系统,弥补了这一差距。

主要贡献

  • 物理感知的对比预训练:引入一种双正例对比损失,将时间一致性与基于 Beer‑Lambert 定律的增强相耦合,教会编码器忽略水引起的颜色/对比度变化。
  • 两阶段跟踪流水线:将快速的基于运动的跟踪器与二次的物理感知关联模块相结合,后者融合几何一致性和外观相似性,在遮挡或漂移期间实现再识别。
  • 新评估指标:提出中心‑尺度一致性(CSC)和几何对齐得分(GAS),用于在传统基于 IoU 的 Success AUC 之外衡量几何保真度。
  • 全面的基准套件:在四个大规模水下数据集(WebUOT‑1M、UOT32、UTB180、UWCOT220)上验证方法,成功 AUC 提升最高可达 6 %,超过此前的最先进水平。
  • 实时性能:保持高效运行时间,适用于自主水下航行器(AUV)或遥控潜水器(ROV)上的 onboard 处理。

方法论

  1. 物理驱动的数据增强 – 利用 Beer‑Lambert 定律,作者在已有视频帧上合成逼真的水下退化(颜色偏移、对比度损失),迫使网络在多种物理上合理的外观下看到同一目标。
  2. 双正例对比学习 – 对每个锚帧生成两个正例:(a) 时间相邻的帧(确保时间连贯性),(b) 施加 Beer‑Lambert 效应的增强版本(确保对水体光学的不可变性)。编码器被训练成将它们拉近,同时将无关帧推远。
  3. 主运动跟踪器 – 轻量级相关滤波或 Siamese‑based 跟踪器逐帧运行,提供快速位置估计。
  4. 二次物理感知关联 – 当主跟踪器置信度下降(如因遮挡),再识别模块使用以下信息评估候选检测:
    • 几何一致性(预测的运动轨迹、尺度变化)
    • 外观相似性(来自物理感知编码器的特征)
      选取最佳匹配以重新锚定轨迹。
  5. 指标套件 – CSC 衡量预测中心和尺度与真实轨迹的吻合程度,GAS 评估预测边界框形状与真实对象几何的对齐程度。

结果与发现

数据集Success AUC (MANTA)相较前沿提升 Δ运行速度 (FPS)
WebUOT‑1M71.4 %+5.8 %28
UOT3268.9 %+6.2 %30
UTB18073.1 %+4.5 %27
UWCOT22070.2 %+5.1 %29
  • 对深度与浊度的鲁棒性:消除 Beer‑Lambert 增强的消融实验导致 AUC 下降约 3 %,验证了物理感知训练的重要性。
  • 长期稳定性:在长时间遮挡的序列上,二次关联模块相比普通 Siamese 跟踪器将漂移事件减少了 40 %。
  • 指标验证:CSC 与 GAS 与人工评估的跟踪质量呈强相关 (ρ ≈ 0.78),表明它们捕捉到了 IoU 不能发现的失效模式。

实际意义

  • AUV/ROV 导航:可靠的目标跟踪使得对管道、珊瑚礁或沉船的自主检查成为可能,减少对操作员的依赖。
  • 海洋野生动物监测:研究人员可以在不同深度下跟踪鱼类或海洋哺乳动物,提升生态学数据采集质量。
  • 水下 AR/VR:实时、几何一致的跟踪是将虚拟标注叠加到现场视频流上、为潜水员提供辅助的前提。
  • 边缘部署:MANTA 在普通 GPU(如 NVIDIA Jetson Xavier)上约 28 FPS,能够嵌入功耗和算力受限的小型机器人。
  • 可迁移框架:双正例对比方案可复用于任何受物理退化(如雾、烟、尘)影响的视觉领域,拓展了其在海洋之外的适用性。

局限性与未来工作

  • 领域特定的增强:当前的 Beer‑Lambert 模型假设水体均匀;高度分层或颗粒丰富的水体仍可能挑战编码器。
  • 数据集偏差:基准主要聚焦相对清澈的水域;在浑浊、低能见度条件下的性能尚未量化。
  • 二次关联的可扩展性:对单目标高效,但多目标场景可能增加计算负担;未来可探索层次化或基于注意力的关联机制。
  • 端到端训练:两阶段流水线仍保持模块化;联合优化运动预测与物理感知再识别有望进一步提升性能。

总体而言,MANTA 证明将领域物理直接嵌入表征学习和跟踪逻辑,可弥合陆地计算机视觉突破与严苛水下环境之间的差距,为任何在非理想物理条件下运行的视觉系统指明了有前景的方向。

作者

  • Suhas Srinath
  • Hemang Jamadagni
  • Aditya Chadrasekar
  • Prathosh AP

论文信息

  • arXiv ID: 2511.23405v1
  • 分类: cs.CV
  • 发表时间: 2025 年 11 月 28 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »