[Paper] 图像拼接和复制移动伪造能否用同一模型检测?Forensim:基于注意力的状态空间方法
发布: (2026年2月11日 GMT+8 02:46)
7 分钟阅读
原文: arXiv
Source: arXiv - 2602.10079v1
概述
本文介绍了 Forensim,一个统一的深度学习模型,能够检测并定位 拼接(插入外部对象)和 复制‑移动(在同一图像内复制区域)伪造。通过联合识别 源(复制内容的来源)和 目标(粘贴的位置),该系统提供了比传统仅标记“被篡改”像素的检测器更丰富的上下文信息。
关键贡献
- 统一的三类分割(原始 / 源 / 目标),适用于拼接和复制移动攻击。
- 基于注意力的视觉状态空间 公式,将归一化的注意力图转化为对整幅图像的相似性搜索。
- 基于区域的块注意力模块,将粗糙的相似性图细化为精确的篡改边界。
- 端到端可训练的架构——无需单独的特征提取、相似性匹配和后处理步骤。
- CMFD‑Anything 数据集:一个大型、多样化的复制移动伪造集合,克服了以往基准的真实性不足。
- 领先水平的结果 在标准拼接和复制移动数据集上取得,尤其在源区域定位精度上有显著提升。
Methodology
- Backbone encoder – 标准的 CNN(例如 ResNet‑50)从输入图像中提取密集特征图。
- Normalized attention maps – 每个空间位置通过 softmax 缩放的相似度矩阵与所有其他位置进行注意力计算,实际上构建了一个 visual state‑space,其中每个“状态”都是一个特征向量。
- Visual state‑space module – 对注意力矩阵进行归一化并阈值化,以突出显示异常相似的区域对,这是一种复制‑移动伪造的标志。
- Block attention module – 将图像划分为重叠块;在每个块内聚合注意力得分,使网络能够区分真实的重复模式(例如纹理)和恶意的复制。
- Three‑class decoder – 轻量级上采样头预测像素级掩码,包含三类标签:原始、源区域和目标区域。损失函数将交叉熵与边界感知项相结合,以强化边缘。
- Training – 模型在拼接和复制‑移动示例(包括新推出的 CMFD‑Anything 数据)混合上进行训练,使用标准随机梯度下降,仅需图像‑掩码对。
整个流水线在一次前向传播中完成,适用于实时或批处理任务。
结果与发现
| 数据集 | 指标(目标 IoU) | 指标(源 IoU) | 相对提升 vs. 先前 SOTA |
|---|---|---|---|
| CASIA‑V2(拼接) | 0.84 | – | +5 % |
| CoMoFoD(复制‑移动) | 0.78 | 0.71 | +7 %(目标) / +9 %(源) |
| CMFD‑Anything(新) | 0.81 | 0.73 | —(基线) |
- 模型始终优于仅针对拼接或仅针对复制‑移动的检测器,尤其在 源 区域表现更佳,验证了联合学习的优势。
- 定性示例显示,即使复制区域经过轻微的几何变换(旋转、缩放),也能清晰地区分复制对象与其原始位置。
- 消融实验表明,去除块注意力模块会导致源 IoU 下降约 6 %,突显其在抑制自然重复导致的误报中的作用。
实际意义
- 内容审核流水线 现在不仅可以标记“这张图片被篡改”,还能指出篡改的来源位置,帮助事实核查员和记者重建事发过程。
- 数字取证工具 可以自动化寻找源区域的繁琐手工步骤,节省分析人员数小时的工作时间。
- 社交媒体平台 可以将 Forensim 作为轻量级微服务集成(在现代 GPU 上对 512×512 图像的处理时间约为 30 ms),实现对用户生成内容的近实时筛查。
- 具备安全感知的机器学习系统(例如深度伪造检测)可以借鉴相同的注意力‑状态空间思路,检测视频帧中的细微复制‑移动攻击。
- 已发布的 CMFD‑Anything 数据集为开发者构建自己的伪造检测器提供了真实的基准,促进可复现性和进一步创新。
Limitations & Future Work
- 当前模型假设只有一个 single source‑target 对;涉及多个重复区域的复杂伪造可能需要层次化扩展。
- 在超高分辨率图像(> 4 K)上性能下降,原因是完整图像注意力矩阵的内存限制;近似或层次注意力可能缓解此问题。
- 作者指出,对抗性后处理(例如强 JPEG 压缩、激进噪声)会削弱相似性线索,暗示需要研究对压缩伪影的鲁棒性。
- 未来研究方向包括将状态空间公式扩展到 video(时序复制‑移动)以及整合 semantic priors(如目标检测器),以进一步降低自然重复纹理上的误报。
作者
- Soumyaroop Nandi
- Prem Natarajan
论文信息
- arXiv ID: 2602.10079v1
- 类别: cs.CV
- 出版日期: 2026年2月10日
- PDF: 下载 PDF