[论文] SAM 引导的语义与运动变化区域挖掘用于遥感变化标题生成

发布: (2025年11月26日 GMT+8 22:11)
6 min read
原文: arXiv

Source: arXiv - 2511.21420v1

Overview

遥感变化描述任务要求模型观察在不同时间拍摄的两幅卫星图像,并生成一段自然语言句子来描述发生了什么变化(例如,“新建了一座建筑”)。本文提出了一种新颖的流水线,将 Segment Anything Model (SAM) 融入描述生成框架,使系统能够强有力地感知变化发生的 位置 与涉及的 对象。这种基于区域的感知显著提升了多个基准数据集上的最新性能。

Key Contributions

  • 基于 SAM 的区域挖掘: 利用基础模型 SAM 自动分割两幅图像之间的语义(对象级)和运动(时序)变化区域。
  • 混合特征融合: 通过交叉注意力将全局 CNN/Transformer 视觉嵌入、SAM 派生的区域嵌入以及对象属性知识图谱相结合。
  • 知识图谱集成: 构建轻量级图谱,将关于典型遥感对象(道路、建筑、植被)的先验信息注入描述生成器。
  • Transformer 解码器用于描述生成: 在融合的多模态表征条件下生成流畅的变化描述。
  • 最新的性能表现: 在多个公开的遥感变化描述基准(如 LEVIR‑CC、WHU‑CD)上创下新纪录。

Methodology

  1. 全局特征提取 – 使用 CNN 或 Vision Transformer 主干网络处理两幅输入图像,生成捕获整体场景上下文的高级特征图。
  2. 使用 SAM 提取区域 – 预训练的 SAM 模型接收图像对并输出两组掩码:
    • 语义掩码:勾勒出已知对象类别(建筑、道路、水体)。
    • 运动掩码:突出显示在时间戳之间外观发生变化的像素。
      这些掩码被汇聚为紧凑的区域嵌入。
  3. 知识图谱构建 – 一个小型图谱编码诸如 “建筑 → 拥有 → 屋顶” 或 “道路 → 连接 → 交叉口” 的关系。节点与区域嵌入相连,提供语义先验。
  4. 交叉注意力融合 – 多头交叉注意力模块使描述解码器能够同时关注全局特征、区域嵌入和图谱节点向量,实现空间与时间线索的对齐。
  5. 描述生成 – 标准的 Transformer 解码器(带语言模型头)自回归地逐词输出变化描述。

整个流水线可端到端训练;仅 SAM 权重保持冻结,利用其零-shot 分割能力而无需额外标注。

Results & Findings

  • 定量提升: 在 LEVIR‑CC 与 WHU‑CD 数据集上,本文方法相较于之前的最佳模型将 CIDEr 提高约 7–10 分,BLEU‑4 提高约 3–5 分。
  • 消融实验: 移除 SAM 派生的掩码会导致 CIDEr 下降约 4 分,验证了区域线索的重要性。加入知识图谱则再提升约 2 分 CIDEr。
  • 定性洞察: 可视化结果显示模型能够准确定位新建结构,并将其与季节性植被变化区分开来,生成的描述如 “在高速公路北侧出现了一个新的住宅区”。

Practical Implications

  • 快速灾害评估: 应急人员可以将灾前灾后卫星图像输入系统,获得受损基础设施的简洁文本摘要,加速态势感知。
  • 城市规划与监测: 城市规划者能够自动生成变化日志(如 “新增了一个停车场”),用于大规模 GIS 数据库,降低人工标注工作量。
  • 环境监测: 监测森林砍伐或水体缩减的机构可以收到自然语言警报,比原始变化图更易于理解。
  • 与现有流水线的集成: 由于 SAM 以即插即用方式使用,开发者可在最小代码改动下将该方法迁移到已有的遥感分析系统中。

Limitations & Future Work

  • 对 SAM 质量的依赖: 在低分辨率或云层严重的图像中,SAM 可能产生过度分割的掩码,这会将错误传递至描述阶段。
  • 知识图谱的可扩展性: 当前图谱仅覆盖有限的常见对象;若要扩展到细分领域(如农作物),需要额外的策划工作。
  • 时间粒度: 本方法仅处理一对时间戳;未来工作可探索多时间序列以捕捉渐进式变化。
  • 实时约束: 虽然在 GPU 上推理速度快,但在边缘设备或低功耗平台部署可能需要模型压缩或剪枝技术。

作者计划开源代码,这将加速社区采纳并帮助解决上述挑战。

Authors

  • Futian Wang
  • Mengqi Wang
  • Xiao Wang
  • Haowen Wang
  • Jin Tang

Paper Information

  • arXiv ID: 2511.21420v1
  • Categories: cs.CV, cs.AI
  • Published: November 26, 2025
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »