[Paper] Phase4DFD：用于深度伪造检测的多域相位感知注意力

发布: 1个月前 (2026年1月9日 GMT+8 23:37)

7 分钟阅读

原文: arXiv

Source: arXiv - 2601.05861v1

概述

论文 Phase4DFD 引入了一种新的深度伪造检测框架，超越了常规的像素级分析，深入频域——特别是经常被忽视的傅里叶变换相位分量。通过将 RGB 图像与幅度、局部二值模式（LBP）以及可学习的相位感知注意力模块相结合，作者在保持模型轻量化、适合实时部署的同时，实现了业界领先的检测精度。

Key Contributions

Phase‑aware attention: 一个新颖的输入级模块，突出相位不连续性——合成视频生成的常见副产品——并引导主干网络关注最具指示性的频率线索。
Multi‑domain input fusion: 同时输入 RGB、FFT 幅度和 LBP 图，揭示仅空间方法看不见的操纵伪迹。
Efficient backbone: 与 BNext‑M 架构（以及可选的通道‑空间注意力）集成，在计算和内存占用适中的情况下实现高精度。
Comprehensive evaluation: 在两个大规模基准（CIFAKE 和 DFFD）上相较于空间和仅频率检测器表现更佳。
Ablation insights: 证明相位信息提供了超出仅幅度表示的互补且非冗余的信号。

方法论

预处理：
- 输入视频帧被转换为三种并行表示：
  - RGB（标准彩色图像）。
  - FFT 幅值，通过快速傅里叶变换获得，捕捉每个频率分量的强度。
  - 局部二值模式 (LBP) 图，编码细粒度纹理线索。
相位感知注意力模块：
- FFT 还会产生 相位图（每个频率分量的相位角）。
- 该模块学习一个注意力掩码，强调相位出现突变的区域——这些通常是生成伪影，如拼接或插值。
- 该掩码在任何深层特征提取之前应用，实际上对多域输入进行“预过滤”。
主干特征提取：
- 经过注意的多域张量被送入 BNext‑M，这是一种为速度设计的紧凑卷积网络。
- 可选的 通道‑空间注意力 (CSA) 块通过重新加权通道和空间维度来细化语义特征。
分类头：
- 一个轻量级全连接层预测二元标签（真实 vs. 深度伪造）。
训练：
- 使用标准交叉熵损失，结合数据增强（随机裁剪、水平翻转）和频域增强（相位抖动）以提升鲁棒性。

结果与发现

数据集	指标 (AUC)	Phase4DFD	最佳空间‑Only	最佳幅度‑Only
CIFAKE	0.987	0.987	0.962	0.974
DFFD	0.981	0.981	0.945	0.959

准确率提升： 添加相位感知注意力可使 AUC 提升约 2–3 %，相较于仅幅度的基线。
效率： 完整流水线在单个 RTX 3080 上运行约 45 FPS，GPU 显存占用 <120 MB——完全符合边缘或流媒体场景的限制。
消融实验： 移除相位模块后性能降至仅幅度模型的水平，证实相位提供了独特信息。
鲁棒性： 模型在常见后处理（压缩、缩放）下仍保持高检测率，表明相位线索能够在典型分布转移中存活。

实际影响

实时审核: 低延迟和适度的硬件需求使 Phase4DFD 适用于需要现场深度伪造筛查的实时视频平台（例如流媒体服务、视频会议）。
取证工具: 调查人员可以将多域预处理流水线集成到现有取证套件中，以发现肉眼难以察觉的细微操纵。
边缘部署: 由于主干网络轻量化，该方法可以打包到移动或嵌入式设备（如智能摄像头）上，实现设备端真实性检查，无需将原始视频上传至云端。
模型无关的增强: 相位感知注意力模块可以嫁接到其他检测主干（ResNet、EfficientNet），为已经使用不同架构的团队提供即插即用的升级路径。

Limitations & Future Work

对极端压缩的相位敏感性： 虽然对中等码率编解码器具有鲁棒性，但极低比特率的流可能会扭曲相位信息，导致检测性能略有下降。
对未见生成方法的泛化能力： 本研究聚焦于两个基准数据集；更新的生成模型（例如基于扩散的视频合成）可能呈现不同的相位特征，需要进一步验证。
可解释性： 虽然注意力图突出了相位不连续性，但更深入的可解释性分析（例如将特定伪影与生成流水线关联）仍留待未来研究。
多模态扩展： 将音频或时间一致性线索与相位感知的频率分析相结合，可能进一步提升检测器对复杂攻击的鲁棒性。

作者

Zhen‑Xin Lin
Shang‑Kuan Chen

论文信息

arXiv ID: 2601.05861v1
类别: cs.CV
发布时间: 2026年1月9日
PDF: 下载 PDF

相关文章

阅读更多 »

[Paper] Deepfake 检测器是 DUMB：一个用于评估在可转移性约束下 adversarial training 鲁棒性的基准

在真实环境中部署的 Deepfake 检测系统面临能够制造不可察觉扰动的对手，这些扰动会削弱模型的性能……

[Paper] 自适应条件对比无关可变形图像配准与不确定性估计

Deformable multi-contrast image registration 是一项具有挑战性但至关重要的任务，因为不同成像对比之间存在复杂的非线性强度关系……

[Paper] VideoAR：自回归视频生成通过下一帧与尺度预测

近期视频生成的进展主要由 diffusion 和 flow-matching 模型主导，这些模型能够产生高质量的结果，但在计算上仍然…

[Paper] WaveRNet: 小波引导的频率学习用于多源域通用视网膜血管分割

领域通用的 retinal vessel segmentation 对自动化 ophthalmic diagnosis 至关重要，但却面临由非…引起的 domain shift 的显著挑战。