[Paper] ReSAM：细化、重新查询与强化：自提示点监督遥感图像分割

发布: 2个月前 (2025年11月27日 GMT+8 01:26)

5 分钟阅读

原文: arXiv

Source: arXiv - 2511.21606v1

Overview

本文提出 ReSAM，一种自提示框架，仅使用稀疏点标注即可将强大的 Segment Anything Model（SAM）适配到遥感影像。通过迭代细化伪掩码、生成新提示并对齐嵌入，ReSAM 在不需要昂贵的密集掩码的情况下显著提升了 SAM 在航空和卫星图像上的表现。

Key Contributions

自提示循环（Refine‑Requery‑Reinforce），将少量用户提供的点转化为逐步改进的分割掩码。
从粗糙掩码生成框提示，使 SAM 能够在仍然保持点监督的前提下，以更丰富的线索“重新查询”图像。
跨迭代的嵌入对齐，缓解确认偏差，防止模型对自身错误的过度拟合。
领域无关的适配，在三个多样化的遥感基准（WHU、HRSID、NWPU VHR‑10）上表现优于原始 SAM 和近期的点监督方法。
无需密集掩码监督，使该方法能够在全标注成本高昂的大规模卫星数据集上实现可扩展性。

Methodology

初始点输入（Refine） – 用户在图像上提供少量前景/背景点。SAM 根据这些点生成粗糙的伪掩码。
自构建框提示（Requery） – 从粗糙掩码中自动提取紧凑的边界框。该框作为额外提示返回给 SAM，促使模型在更丰富的空间线索下重新分割该区域。
语义对齐（Reinforce） – 将当前迭代的特征嵌入与上一步的嵌入进行比较。对比损失鼓励一致性，同时允许纠正，降低早期错误被强化的风险。
迭代循环 – 步骤 1‑3 重复若干次，每个循环产生更干净的掩码和更可靠的提示集合。整个流水线仅需原始点标注，所有其他监督均由内部生成。

Results & Findings

在 WHU、HRSID 和 NWPU VHR‑10 上，ReSAM 将平均交并比（mIoU）提升了 8–12%，相较于开箱即用的 SAM。
与近期的点监督分割方法相比，ReSAM 在使用相同点数的情况下实现了 3–5% 更高的 mIoU。
消融实验表明，每个组件（框重新查询、嵌入强化）均贡献显著；去除强化会导致性能下降约 4%。
视觉检查显示，ReSAM 能呈现更锐利的目标边界，并更好地处理卫星影像中常见的小而密集的结构（如车辆、建筑）。

Practical Implications

快速制图 – 城市规划者只需几次点击即可生成精确的建筑轮廓，将标注时间从数小时缩短至数分钟。
灾害响应 – 应急人员可用最少的输入快速划定洪水范围或火灾边界，加快态势感知。
数据集规模化 – 构建大规模遥感数据集的公司可以从点级众包标签启动分割掩码，显著降低标注成本。
基础模型复用 – ReSAM 展示了在无需全掩码微调的情况下，将其他基础视觉模型（如 CLIP、DINO）适配到细分领域的方案。
边缘部署 – 由于循环运行在 SAM 现有的编码器‑解码器之上，可集成到现有 GIS 流程，甚至在计算资源有限的设备上实现推理。

Limitations & Future Work

该方法仍依赖 初始点的质量；错误放置的点可能导致难以恢复的次优伪掩码。
计算成本 随着细化迭代次数的增加而上升，可能成为处理超大卫星瓦片的瓶颈。
当前的强化策略使用的是简单的对比损失；更复杂的不确定性建模或可进一步降低确认偏差。
未来研究可探索 多模态提示（如文本线索）或将循环扩展至 视频遥感，以实现时间一致性。

Authors

M. Naseer Subhani

Paper Information

arXiv ID: 2511.21606v1
Categories: cs.CV
Published: November 26, 2025
PDF: Download PDF

相关文章

阅读更多 »

[Paper] Video‑R2：强化多模态语言模型中的一致且有根基的推理

对动态视觉内容进行推理仍然是多模态大型语言模型的核心挑战。最近的思考模型生成显式的推理轨迹。

[Paper] Video-CoM：通过操作链进行交互式视频推理

近期的多模态大语言模型（MLLMs）在视频理解方面取得了进展，但大多数仍然是“思考视频”，即一旦视频被编码，推理……

[Paper] AnyTalker：通过交互细化实现多人物说话视频生成的规模化

最近，多人视频生成开始受到关注。虽然已有少数初步工作探索了音频驱动的多人说话视频生成……

[Paper] 视觉生成调优

大型视觉语言模型（VLMs）通过广泛的预训练，有效弥合模态差距，获取与视觉表示相匹配的复杂特征……