[Paper] 3AM:在视频中实现几何一致性的 Segment Anything

发布: (2026年1月14日 GMT+8 02:59)
6 min read
原文: arXiv

Source: arXiv - 2601.08831v1

概述

论文 “3AM: Segment Anything with Geometric Consistency in Videos” 解决了视频目标分割(VOS)中一个长期存在的问题:在摄像机视角剧烈摆动时保持准确的掩码。通过将强大的基于外观的 SAM2 模型与 MUSt3R 框架提供的轻量级 3‑D 感知特征相结合,作者实现了几何一致的分割 无需深度图、相机位姿或任何推理时的预处理

关键贡献

  • 3AM 架构:一种训练时插件,通过轻量级特征合并器将 MUSt3R 的多层 3‑D 特征与 SAM2 的外观特征融合。
  • 隐式几何对应:合并后的表示编码空间位置,使模型在宽基线帧之间能够“锚定”在同一物理对象上。
  • 视场感知采样:一种新颖的数据采样策略,强制训练帧共享一致的目标区域,强化 3‑D 对应的学习。
  • 零额外推理成本:测试时系统仅需原始 RGB 帧——无需深度、姿态或繁重的预处理——即可直接兼容现有的 SAM2 流程。
  • 领先的性能:在具有挑战性的宽基线视频基准(ScanNet++、Replica)上,3AM 达到 90.6 % IoU71.7 % Positive IoU,分别比之前最佳的 VOS 方法提升 +15.9+30.4 分。

方法论

主干融合

  • SAM2 提供强大的每帧外观嵌入(颜色、纹理)。
  • MUSt3R 提供多尺度 3D 感知嵌入,捕获隐式几何信息(例如相对深度、表面方向),这些嵌入从大规模仅 RGB 视频数据中学习得到。
  • 特征合并器(若干 1×1 卷积 + 残差连接)将这两条流合并为单一 token 集合,随后送入 SAM2 的记忆编码器。

训练时几何约束

  • 作者提出了一种 视场感知采样器,它在相机运动幅度大的情况下,挑选同一对象占据重叠图像区域的帧对。
  • 对比损失使重叠区域的合并 token 接近,而非重叠区域的 token 被拉开,从而让网络学习到隐式的 3D 一致性概念。

推理简易性

  • 训练完成后,模型的运行方式与原始 SAM2 完全相同:输入一帧 RGB 图像,检索记忆库,预测掩码。
  • 几何知识已嵌入学习到的权重中,无需外部 3D 数据。

结果与发现

数据集(子集)指标SAM2 (baseline)3AM (ours)Δ
ScanNet++(已选)IoU74.7 %90.6 %+15.9
ScanNet++(已选)Positive IoU41.3 %71.7 %+30.4
Replica(wide‑baseline)IoU68.2 %84.5 %+16.3
  • 对视点变化的鲁棒性:即使对象旋转出视野或出现严重透视畸变,3AM 仍能保持掩码连续性。
  • 消融实验表明,去除 Feature Merger 或视场采样器会使性能下降至 SAM2 水平,验证了每个组件的必要性。
  • 运行时影响可以忽略不计(< 5 % 开销),因为合并器轻量,推理仍仅使用 RGB。

实际意义

  • 即插即用升级,适用于任何已使用 SAM2 的产品(例如视频编辑工具、AR/VR 流程、自动驾驶感知堆栈)。
  • 降低工程负担:无需收集或同步深度传感器或 SLAM 位姿估计,这些在消费设备上往往噪声大或不可用。
  • 提升用户体验,在需要跨摄像机移动保持对象掩码的应用中——比如交互式视频再定位、虚拟试穿或机器人操作,其中机器人的视角不断变化。
  • 降低计算成本,相较于依赖昂贵点云处理的完整 3‑D 实例分割流水线,更适合边缘设备或实时流媒体服务。

限制与未来工作

  • 训练数据依赖:几何编码器(MUSt3R)在大规模 RGB 视频语料库上进行预训练;在场景几何结构截然不同的领域(例如水下或医学视频)中,性能可能下降。
  • 缺少显式深度输出:虽然掩码保持一致,但模型并未提供深度或三维形状估计,这在下游任务中可能是有价值的。
  • 内存扩展性:与 SAM2 类似,3AM 仍然保存过去帧的记忆库;对于非常长的视频,可能需要额外的策略(例如分层记忆裁剪)。
  • 未来方向:作者提出的进一步工作包括将融合器扩展至处理多模态输入(如 LiDAR),学习与掩码联合预测粗略深度,以及探索在特定领域视频流上的自监督微调。

作者

  • Yang‑Che Sun
  • Cheng Sun
  • Chin‑Yang Lin
  • Fu‑En Yang
  • Min‑Hung Chen
  • Yen‑Yu Lin
  • Yu‑Lun Liu

论文信息

  • arXiv ID: 2601.08831v1
  • 分类: cs.CV
  • 发布日期: 2026年1月13日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »