[Paper] 图像拼接和复制移动伪造能否用同一模型检测?Forensim:基于注意力的状态空间方法

发布: (2026年2月11日 GMT+8 02:46)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.10079v1

概述

本文介绍了 Forensim,一个统一的深度学习模型,能够检测并定位 拼接(插入外部对象)和 复制‑移动(在同一图像内复制区域)伪造。通过联合识别 (复制内容的来源)和 目标(粘贴的位置),该系统提供了比传统仅标记“被篡改”像素的检测器更丰富的上下文信息。

关键贡献

  • 统一的三类分割(原始 / 源 / 目标),适用于拼接和复制移动攻击。
  • 基于注意力的视觉状态空间 公式,将归一化的注意力图转化为对整幅图像的相似性搜索。
  • 基于区域的块注意力模块,将粗糙的相似性图细化为精确的篡改边界。
  • 端到端可训练的架构——无需单独的特征提取、相似性匹配和后处理步骤。
  • CMFD‑Anything 数据集:一个大型、多样化的复制移动伪造集合,克服了以往基准的真实性不足。
  • 领先水平的结果 在标准拼接和复制移动数据集上取得,尤其在源区域定位精度上有显著提升。

Methodology

  1. Backbone encoder – 标准的 CNN(例如 ResNet‑50)从输入图像中提取密集特征图。
  2. Normalized attention maps – 每个空间位置通过 softmax 缩放的相似度矩阵与所有其他位置进行注意力计算,实际上构建了一个 visual state‑space,其中每个“状态”都是一个特征向量。
  3. Visual state‑space module – 对注意力矩阵进行归一化并阈值化,以突出显示异常相似的区域对,这是一种复制‑移动伪造的标志。
  4. Block attention module – 将图像划分为重叠块;在每个块内聚合注意力得分,使网络能够区分真实的重复模式(例如纹理)和恶意的复制。
  5. Three‑class decoder – 轻量级上采样头预测像素级掩码,包含三类标签:原始、源区域和目标区域。损失函数将交叉熵与边界感知项相结合,以强化边缘。
  6. Training – 模型在拼接和复制‑移动示例(包括新推出的 CMFD‑Anything 数据)混合上进行训练,使用标准随机梯度下降,仅需图像‑掩码对。

整个流水线在一次前向传播中完成,适用于实时或批处理任务。

结果与发现

数据集指标(目标 IoU)指标(源 IoU)相对提升 vs. 先前 SOTA
CASIA‑V2(拼接)0.84+5 %
CoMoFoD(复制‑移动)0.780.71+7 %(目标) / +9 %(源)
CMFD‑Anything(新)0.810.73—(基线)
  • 模型始终优于仅针对拼接或仅针对复制‑移动的检测器,尤其在 区域表现更佳,验证了联合学习的优势。
  • 定性示例显示,即使复制区域经过轻微的几何变换(旋转、缩放),也能清晰地区分复制对象与其原始位置。
  • 消融实验表明,去除块注意力模块会导致源 IoU 下降约 6 %,突显其在抑制自然重复导致的误报中的作用。

实际意义

  • 内容审核流水线 现在不仅可以标记“这张图片被篡改”,还能指出篡改的来源位置,帮助事实核查员和记者重建事发过程。
  • 数字取证工具 可以自动化寻找源区域的繁琐手工步骤,节省分析人员数小时的工作时间。
  • 社交媒体平台 可以将 Forensim 作为轻量级微服务集成(在现代 GPU 上对 512×512 图像的处理时间约为 30 ms),实现对用户生成内容的近实时筛查。
  • 具备安全感知的机器学习系统(例如深度伪造检测)可以借鉴相同的注意力‑状态空间思路,检测视频帧中的细微复制‑移动攻击。
  • 已发布的 CMFD‑Anything 数据集为开发者构建自己的伪造检测器提供了真实的基准,促进可复现性和进一步创新。

Limitations & Future Work

  • 当前模型假设只有一个 single source‑target 对;涉及多个重复区域的复杂伪造可能需要层次化扩展。
  • 在超高分辨率图像(> 4 K)上性能下降,原因是完整图像注意力矩阵的内存限制;近似或层次注意力可能缓解此问题。
  • 作者指出,对抗性后处理(例如强 JPEG 压缩、激进噪声)会削弱相似性线索,暗示需要研究对压缩伪影的鲁棒性。
  • 未来研究方向包括将状态空间公式扩展到 video(时序复制‑移动)以及整合 semantic priors(如目标检测器),以进一步降低自然重复纹理上的误报。

作者

  • Soumyaroop Nandi
  • Prem Natarajan

论文信息

  • arXiv ID: 2602.10079v1
  • 类别: cs.CV
  • 出版日期: 2026年2月10日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »