[Paper] SAM3-DMS:解耦记忆选择用于 SAM3 的多目标视频分割
发布: (2026年1月15日 GMT+8 02:52)
6 min read
原文: arXiv
Source: arXiv - 2601.09699v1
Overview
Segment Anything 3 (SAM3) 已成为检测、分割和跟踪视频流中对象的首选基础模型。虽然它在单对象或低密度场景中表现良好,但其原始设计在出现大量对象同时出现时会对使用哪些记忆帧做出 单一的整体决策。这种“组级”记忆选择可能导致拥挤视频中的身份交换和面具抖动。全新的 SAM3‑DMS(解耦记忆选择)插件在无需额外训练的情况下解决了该问题,为开发者提供了即插即用的升级,使每个对象的记忆保持独立且更可靠。
关键贡献
- Decoupled Memory Selection (DMS): 一个无需训练的模块,针对每个对象而非全局选择记忆帧,保持单个对象的可靠性。
- Zero‑Shot Compatibility: 可直接与现成的 SAM3 模型配合使用;无需微调或额外数据。
- Scalable Multi‑Target Performance: 随着并发目标数量的增加,收益显著提升,适用于密集场景(例如体育、监控)。
- Robust Identity Preservation: 减少掩码交换,提升长视频序列中的时间一致性。
- Comprehensive Evaluation: 在标准多目标视频分割数据集上进行基准测试,报告了最先进的身份保持指标。
方法论
- SAM3 中的记忆库: SAM3 存储一组过去的帧(“记忆”),它会查询这些帧以向前传播掩码。在原始设计中,同一记忆集合用于帧中的所有对象。
- 逐对象评分: SAM3‑DMS 使用现有的编码器特征为每个对象‑记忆对计算轻量级置信分数(无需额外网络)。
- 解耦选择: 对于每个活跃目标,模块挑选出对该特定目标置信度最高的前 k 个记忆帧。这产生每个对象不同的记忆子集。
- 掩码传播: 选中的记忆被送回 SAM3 的解码器,生成的掩码基于每个对象最相关的历史进行条件化。
- 无需训练的集成: 由于评分函数复用了 SAM3 的内部嵌入,整个流水线可以作为推理期间的预处理步骤插入,只需几行代码。
结果与发现
| 指标(数值越高越好) | SAM3(基线) | SAM3‑DMS(我们的) |
|---|---|---|
| ID‑F1(身份 F1) | 71.2% | 78.9% (+7.7) |
| mIoU(平均 IoU) | 68.5% | 70.1% (+1.6) |
| FPS(推理速度) | 12.4 | 11.9 (≈ 4% drop) |
- 身份保持显著提升,尤其在出现 >10 个对象时(ID‑F1 提升 >10%)。
- **掩码质量(mIoU)**有适度提升,证明解耦记忆不会牺牲空间精度。
- 速度影响极小;额外的评分和选择每帧仅增加几毫秒,使系统在大多数应用中仍保持实时。
定性示例显示,在对象交叉或遮挡时,轨迹更平滑,且“掩码交换”更少。
实际意义
- 视频分析与监控: 部署 SAM3‑DMS 可实现对大量人员或车辆的可靠跟踪,无需进行自定义再训练,从而降低因身份交换导致的误报。
- AR/VR 与实时特效: 开发者可以在多个移动对象(例如运动员)上叠加持久的遮罩,并保持稳定的身份标识,提升用户沉浸感。
- 机器人与自主系统: 多目标感知流水线可以直接使用 SAM3‑DMS,在帧间保持一致的对象 ID,简化后续的规划和决策过程。
- 内容创作工具: 使用 SAM3 进行抠图或背景替换的视频编辑者,在处理拥挤场景时将减少手动修正的次数。
- 易于集成: 由于该方法无需训练且仅影响推理路径,只需一次函数调用或轻量包装即可添加到现有的 SAM3 部署中。
限制与未来工作
- 内存开销: 为每个对象维护独立的记忆子集会略微增加 GPU 内存使用,这在资源极其有限的设备上可能成为瓶颈。
- 置信评分简易性: 目前的评分依赖原始编码器嵌入;更复杂的学习度量可能进一步提升性能,尤其是对高度相似的对象。
- 极度密集场景: 虽然目标数量增加时收益提升,但当帧中 >50 个对象时,方法仍出现收益递减,暗示需要层次化或基于区域的记忆管理。
- 未来方向: 作者提出探索对每个对象的自适应记忆预算、集成轻量级学习型选择器,以及将该方法扩展到 3‑D 点云视频流。
作者
- Ruiqi Shen
- Chang Liu
- Henghui Ding
论文信息
- arXiv ID: 2601.09699v1
- 类别: cs.CV
- 出版时间: 2026年1月14日
- PDF: 下载 PDF