[Paper] 图像拼接和复制移动伪造能否用同一模型检测？Forensim：基于注意力的状态空间方法

发布: 2天前 (2026年2月11日 GMT+8 02:46)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.10079v1

概述

本文介绍了 Forensim，一个统一的深度学习模型，能够检测并定位拼接（插入外部对象）和 复制‑移动（在同一图像内复制区域）伪造。通过联合识别源（复制内容的来源）和目标（粘贴的位置），该系统提供了比传统仅标记“被篡改”像素的检测器更丰富的上下文信息。

Backbone encoder – 标准的 CNN（例如 ResNet‑50）从输入图像中提取密集特征图。
Normalized attention maps – 每个空间位置通过 softmax 缩放的相似度矩阵与所有其他位置进行注意力计算，实际上构建了一个 visual state‑space，其中每个“状态”都是一个特征向量。
Visual state‑space module – 对注意力矩阵进行归一化并阈值化，以突出显示异常相似的区域对，这是一种复制‑移动伪造的标志。
Block attention module – 将图像划分为重叠块；在每个块内聚合注意力得分，使网络能够区分真实的重复模式（例如纹理）和恶意的复制。
Three‑class decoder – 轻量级上采样头预测像素级掩码，包含三类标签：原始、源区域和目标区域。损失函数将交叉熵与边界感知项相结合，以强化边缘。
Training – 模型在拼接和复制‑移动示例（包括新推出的 CMFD‑Anything 数据）混合上进行训练，使用标准随机梯度下降，仅需图像‑掩码对。

整个流水线在一次前向传播中完成，适用于实时或批处理任务。

数据集	指标（目标 IoU）	指标（源 IoU）	相对提升 vs. 先前 SOTA
CASIA‑V2（拼接）	0.84	–	+5 %
CoMoFoD（复制‑移动）	0.78	0.71	+7 %（目标） / +9 %（源）
CMFD‑Anything（新）	0.81	0.73	—（基线）

内容审核流水线 现在不仅可以标记“这张图片被篡改”，还能指出篡改的来源位置，帮助事实核查员和记者重建事发过程。
数字取证工具 可以自动化寻找源区域的繁琐手工步骤，节省分析人员数小时的工作时间。
社交媒体平台 可以将 Forensim 作为轻量级微服务集成（在现代 GPU 上对 512×512 图像的处理时间约为 30 ms），实现对用户生成内容的近实时筛查。
具备安全感知的机器学习系统（例如深度伪造检测）可以借鉴相同的注意力‑状态空间思路，检测视频帧中的细微复制‑移动攻击。
已发布的 CMFD‑Anything 数据集为开发者构建自己的伪造检测器提供了真实的基准，促进可复现性和进一步创新。

当前模型假设只有一个 single source‑target 对；涉及多个重复区域的复杂伪造可能需要层次化扩展。
在超高分辨率图像（> 4 K）上性能下降，原因是完整图像注意力矩阵的内存限制；近似或层次注意力可能缓解此问题。
作者指出，对抗性后处理（例如强 JPEG 压缩、激进噪声）会削弱相似性线索，暗示需要研究对压缩伪影的鲁棒性。
未来研究方向包括将状态空间公式扩展到 video（时序复制‑移动）以及整合 semantic priors（如目标检测器），以进一步降低自然重复纹理上的误报。