[论文] SAM 引导的语义与运动变化区域挖掘用于遥感变化标题生成

发布: 2个月前 (2025年11月26日 GMT+8 22:11)

6 分钟阅读

原文: arXiv

Source: arXiv - 2511.21420v1

Overview

遥感变化描述任务要求模型观察在不同时间拍摄的两幅卫星图像，并生成一段自然语言句子来描述发生了什么变化（例如，“新建了一座建筑”）。本文提出了一种新颖的流水线，将 Segment Anything Model (SAM) 融入描述生成框架，使系统能够强有力地感知变化发生的位置与涉及的对象。这种基于区域的感知显著提升了多个基准数据集上的最新性能。

Key Contributions

基于 SAM 的区域挖掘： 利用基础模型 SAM 自动分割两幅图像之间的语义（对象级）和运动（时序）变化区域。
混合特征融合： 通过交叉注意力将全局 CNN/Transformer 视觉嵌入、SAM 派生的区域嵌入以及对象属性知识图谱相结合。
知识图谱集成： 构建轻量级图谱，将关于典型遥感对象（道路、建筑、植被）的先验信息注入描述生成器。
Transformer 解码器用于描述生成： 在融合的多模态表征条件下生成流畅的变化描述。
最新的性能表现： 在多个公开的遥感变化描述基准（如 LEVIR‑CC、WHU‑CD）上创下新纪录。

Methodology

全局特征提取 – 使用 CNN 或 Vision Transformer 主干网络处理两幅输入图像，生成捕获整体场景上下文的高级特征图。
使用 SAM 提取区域 – 预训练的 SAM 模型接收图像对并输出两组掩码：
- 语义掩码：勾勒出已知对象类别（建筑、道路、水体）。
- 运动掩码：突出显示在时间戳之间外观发生变化的像素。
  这些掩码被汇聚为紧凑的区域嵌入。
知识图谱构建 – 一个小型图谱编码诸如 “建筑 → 拥有 → 屋顶” 或 “道路 → 连接 → 交叉口” 的关系。节点与区域嵌入相连，提供语义先验。
交叉注意力融合 – 多头交叉注意力模块使描述解码器能够同时关注全局特征、区域嵌入和图谱节点向量，实现空间与时间线索的对齐。
描述生成 – 标准的 Transformer 解码器（带语言模型头）自回归地逐词输出变化描述。

整个流水线可端到端训练；仅 SAM 权重保持冻结，利用其零-shot 分割能力而无需额外标注。

Results & Findings

定量提升： 在 LEVIR‑CC 与 WHU‑CD 数据集上，本文方法相较于之前的最佳模型将 CIDEr 提高约 7–10 分，BLEU‑4 提高约 3–5 分。
消融实验： 移除 SAM 派生的掩码会导致 CIDEr 下降约 4 分，验证了区域线索的重要性。加入知识图谱则再提升约 2 分 CIDEr。
定性洞察： 可视化结果显示模型能够准确定位新建结构，并将其与季节性植被变化区分开来，生成的描述如 “在高速公路北侧出现了一个新的住宅区”。

Practical Implications

快速灾害评估： 应急人员可以将灾前灾后卫星图像输入系统，获得受损基础设施的简洁文本摘要，加速态势感知。
城市规划与监测： 城市规划者能够自动生成变化日志（如 “新增了一个停车场”），用于大规模 GIS 数据库，降低人工标注工作量。
环境监测： 监测森林砍伐或水体缩减的机构可以收到自然语言警报，比原始变化图更易于理解。
与现有流水线的集成： 由于 SAM 以即插即用方式使用，开发者可在最小代码改动下将该方法迁移到已有的遥感分析系统中。

Limitations & Future Work

对 SAM 质量的依赖： 在低分辨率或云层严重的图像中，SAM 可能产生过度分割的掩码，这会将错误传递至描述阶段。
知识图谱的可扩展性： 当前图谱仅覆盖有限的常见对象；若要扩展到细分领域（如农作物），需要额外的策划工作。
时间粒度： 本方法仅处理一对时间戳；未来工作可探索多时间序列以捕捉渐进式变化。
实时约束： 虽然在 GPU 上推理速度快，但在边缘设备或低功耗平台部署可能需要模型压缩或剪枝技术。

作者计划开源代码，这将加速社区采纳并帮助解决上述挑战。

Authors

Futian Wang
Mengqi Wang
Xiao Wang
Haowen Wang
Jin Tang

Paper Information

arXiv ID: 2511.21420v1
Categories: cs.CV, cs.AI
Published: November 26, 2025
PDF: Download PDF

[论文] SAM 引导的语义与运动变化区域挖掘用于遥感变化标题生成

Overview

Key Contributions

Methodology

Results & Findings

Practical Implications

Limitations & Future Work

Authors

Paper Information

相关文章

[Paper] Physics-Informed Neural Networks 用于热物性属性检索

[Paper] 面向自动安全驾驶指令：大规模视觉语言模型方法

[Paper] TraceGen：在 3D 轨迹空间中的世界建模实现跨体态视频学习

[论文] G$^2$VLM: 基于几何的视觉语言模型，具备统一的 3D 重建与空间推理