[论文] SAM 引导的语义与运动变化区域挖掘用于遥感变化标题生成
发布: (2025年11月26日 GMT+8 22:11)
6 min read
原文: arXiv
Source: arXiv - 2511.21420v1
Overview
遥感变化描述任务要求模型观察在不同时间拍摄的两幅卫星图像,并生成一段自然语言句子来描述发生了什么变化(例如,“新建了一座建筑”)。本文提出了一种新颖的流水线,将 Segment Anything Model (SAM) 融入描述生成框架,使系统能够强有力地感知变化发生的 位置 与涉及的 对象。这种基于区域的感知显著提升了多个基准数据集上的最新性能。
Key Contributions
- 基于 SAM 的区域挖掘: 利用基础模型 SAM 自动分割两幅图像之间的语义(对象级)和运动(时序)变化区域。
- 混合特征融合: 通过交叉注意力将全局 CNN/Transformer 视觉嵌入、SAM 派生的区域嵌入以及对象属性知识图谱相结合。
- 知识图谱集成: 构建轻量级图谱,将关于典型遥感对象(道路、建筑、植被)的先验信息注入描述生成器。
- Transformer 解码器用于描述生成: 在融合的多模态表征条件下生成流畅的变化描述。
- 最新的性能表现: 在多个公开的遥感变化描述基准(如 LEVIR‑CC、WHU‑CD)上创下新纪录。
Methodology
- 全局特征提取 – 使用 CNN 或 Vision Transformer 主干网络处理两幅输入图像,生成捕获整体场景上下文的高级特征图。
- 使用 SAM 提取区域 – 预训练的 SAM 模型接收图像对并输出两组掩码:
- 语义掩码:勾勒出已知对象类别(建筑、道路、水体)。
- 运动掩码:突出显示在时间戳之间外观发生变化的像素。
这些掩码被汇聚为紧凑的区域嵌入。
- 知识图谱构建 – 一个小型图谱编码诸如 “建筑 → 拥有 → 屋顶” 或 “道路 → 连接 → 交叉口” 的关系。节点与区域嵌入相连,提供语义先验。
- 交叉注意力融合 – 多头交叉注意力模块使描述解码器能够同时关注全局特征、区域嵌入和图谱节点向量,实现空间与时间线索的对齐。
- 描述生成 – 标准的 Transformer 解码器(带语言模型头)自回归地逐词输出变化描述。
整个流水线可端到端训练;仅 SAM 权重保持冻结,利用其零-shot 分割能力而无需额外标注。
Results & Findings
- 定量提升: 在 LEVIR‑CC 与 WHU‑CD 数据集上,本文方法相较于之前的最佳模型将 CIDEr 提高约 7–10 分,BLEU‑4 提高约 3–5 分。
- 消融实验: 移除 SAM 派生的掩码会导致 CIDEr 下降约 4 分,验证了区域线索的重要性。加入知识图谱则再提升约 2 分 CIDEr。
- 定性洞察: 可视化结果显示模型能够准确定位新建结构,并将其与季节性植被变化区分开来,生成的描述如 “在高速公路北侧出现了一个新的住宅区”。
Practical Implications
- 快速灾害评估: 应急人员可以将灾前灾后卫星图像输入系统,获得受损基础设施的简洁文本摘要,加速态势感知。
- 城市规划与监测: 城市规划者能够自动生成变化日志(如 “新增了一个停车场”),用于大规模 GIS 数据库,降低人工标注工作量。
- 环境监测: 监测森林砍伐或水体缩减的机构可以收到自然语言警报,比原始变化图更易于理解。
- 与现有流水线的集成: 由于 SAM 以即插即用方式使用,开发者可在最小代码改动下将该方法迁移到已有的遥感分析系统中。
Limitations & Future Work
- 对 SAM 质量的依赖: 在低分辨率或云层严重的图像中,SAM 可能产生过度分割的掩码,这会将错误传递至描述阶段。
- 知识图谱的可扩展性: 当前图谱仅覆盖有限的常见对象;若要扩展到细分领域(如农作物),需要额外的策划工作。
- 时间粒度: 本方法仅处理一对时间戳;未来工作可探索多时间序列以捕捉渐进式变化。
- 实时约束: 虽然在 GPU 上推理速度快,但在边缘设备或低功耗平台部署可能需要模型压缩或剪枝技术。
作者计划开源代码,这将加速社区采纳并帮助解决上述挑战。
Authors
- Futian Wang
- Mengqi Wang
- Xiao Wang
- Haowen Wang
- Jin Tang
Paper Information
- arXiv ID: 2511.21420v1
- Categories: cs.CV, cs.AI
- Published: November 26, 2025
- PDF: Download PDF