[Paper] Phase4DFD:用于深度伪造检测的多域相位感知注意力

发布: (2026年1月9日 GMT+8 23:37)
7 min read
原文: arXiv

Source: arXiv - 2601.05861v1

概述

论文 Phase4DFD 引入了一种新的深度伪造检测框架,超越了常规的像素级分析,深入频域——特别是经常被忽视的傅里叶变换相位分量。通过将 RGB 图像与幅度、局部二值模式(LBP)以及可学习的相位感知注意力模块相结合,作者在保持模型轻量化、适合实时部署的同时,实现了业界领先的检测精度。

Key Contributions

  • Phase‑aware attention: 一个新颖的输入级模块,突出相位不连续性——合成视频生成的常见副产品——并引导主干网络关注最具指示性的频率线索。
  • Multi‑domain input fusion: 同时输入 RGB、FFT 幅度和 LBP 图,揭示仅空间方法看不见的操纵伪迹。
  • Efficient backbone: 与 BNext‑M 架构(以及可选的通道‑空间注意力)集成,在计算和内存占用适中的情况下实现高精度。
  • Comprehensive evaluation: 在两个大规模基准(CIFAKE 和 DFFD)上相较于空间和仅频率检测器表现更佳。
  • Ablation insights: 证明相位信息提供了超出仅幅度表示的互补且非冗余的信号。

方法论

  1. 预处理:
    • 输入视频帧被转换为三种并行表示:
      • RGB(标准彩色图像)。
      • FFT 幅值,通过快速傅里叶变换获得,捕捉每个频率分量的强度。
      • 局部二值模式 (LBP) 图,编码细粒度纹理线索。
  2. 相位感知注意力模块:
    • FFT 还会产生 相位图(每个频率分量的相位角)。
    • 该模块学习一个注意力掩码,强调相位出现突变的区域——这些通常是生成伪影,如拼接或插值。
    • 该掩码在任何深层特征提取之前 应用,实际上对多域输入进行“预过滤”。
  3. 主干特征提取:
    • 经过注意的多域张量被送入 BNext‑M,这是一种为速度设计的紧凑卷积网络。
    • 可选的 通道‑空间注意力 (CSA) 块通过重新加权通道和空间维度来细化语义特征。
  4. 分类头:
    • 一个轻量级全连接层预测二元标签(真实 vs. 深度伪造)。
  5. 训练:
    • 使用标准交叉熵损失,结合数据增强(随机裁剪、水平翻转)和频域增强(相位抖动)以提升鲁棒性。

结果与发现

数据集指标 (AUC)Phase4DFD最佳空间‑Only最佳幅度‑Only
CIFAKE0.9870.9870.9620.974
DFFD0.9810.9810.9450.959
  • 准确率提升: 添加相位感知注意力可使 AUC 提升约 2–3 %,相较于仅幅度的基线。
  • 效率: 完整流水线在单个 RTX 3080 上运行约 45 FPS,GPU 显存占用 <120 MB——完全符合边缘或流媒体场景的限制。
  • 消融实验: 移除相位模块后性能降至仅幅度模型的水平,证实相位提供了独特信息。
  • 鲁棒性: 模型在常见后处理(压缩、缩放)下仍保持高检测率,表明相位线索能够在典型分布转移中存活。

实际影响

  • 实时审核: 低延迟和适度的硬件需求使 Phase4DFD 适用于需要现场深度伪造筛查的实时视频平台(例如流媒体服务、视频会议)。
  • 取证工具: 调查人员可以将多域预处理流水线集成到现有取证套件中,以发现肉眼难以察觉的细微操纵。
  • 边缘部署: 由于主干网络轻量化,该方法可以打包到移动或嵌入式设备(如智能摄像头)上,实现设备端真实性检查,无需将原始视频上传至云端。
  • 模型无关的增强: 相位感知注意力模块可以嫁接到其他检测主干(ResNet、EfficientNet),为已经使用不同架构的团队提供即插即用的升级路径。

Limitations & Future Work

  • 对极端压缩的相位敏感性: 虽然对中等码率编解码器具有鲁棒性,但极低比特率的流可能会扭曲相位信息,导致检测性能略有下降。
  • 对未见生成方法的泛化能力: 本研究聚焦于两个基准数据集;更新的生成模型(例如基于扩散的视频合成)可能呈现不同的相位特征,需要进一步验证。
  • 可解释性: 虽然注意力图突出了相位不连续性,但更深入的可解释性分析(例如将特定伪影与生成流水线关联)仍留待未来研究。
  • 多模态扩展: 将音频或时间一致性线索与相位感知的频率分析相结合,可能进一步提升检测器对复杂攻击的鲁棒性。

作者

  • Zhen‑Xin Lin
  • Shang‑Kuan Chen

论文信息

  • arXiv ID: 2601.05861v1
  • 类别: cs.CV
  • 发布时间: 2026年1月9日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »