【论文】ExposeAnyone:个性化 Audio-to-Expression 扩散模型是鲁棒的 Zero-Shot 人脸伪造检测器

发布: (2026年1月6日 GMT+8 02:59)
6 min read
原文: arXiv

Source: arXiv - 2601.02359v1

Overview

本文介绍了 ExposeAnyone,一种自监督系统,在训练期间从未见过伪造示例即可检测深度伪造视频。通过学习个人面部表情应如何与语音同步,模型能够发现泄露伪造的异常——在多个基准数据集上实现了最先进的性能,并对常见视频降级表现出强大的鲁棒性。

关键贡献

  • 零样本伪造检测 – 使用基于扩散的音频到表情生成器,可在没有任何监督伪造数据的情况下标记未见的深度伪造。
  • 个性化建模 – 系统通过少量参考视频集对目标主体进行“个性化”,通过重建误差实现身份感知检测。
  • 自监督训练 – 仅从真实的音视频对中学习,规避了监督伪造检测流水线的过拟合问题。
  • 对扰动的鲁棒性 – 在模糊、压缩及其他真实世界视频伪影下仍保持高检测准确率。
  • 广泛基准提升 – 在 DF‑TIMIT、DFDCP、KoDF 和 IDForge 上的平均 AUC 提升 4.22 %,并成功检测出其他方法失效的 Sora2 生成的伪造。

方法论

1. 音频‑到‑表情扩散模型

  • 训练一个条件扩散网络,以在给定音频片段的情况下合成一系列面部表情参数(例如 3D 关键点或 blendshape 系数)。
  • 扩散过程在音频的引导下,对随机潜在变量进行迭代去噪,直至产生合理的表情轨迹。

2. 个性化(针对特定主体的微调)

  • 对于每个感兴趣的主体,使用一小段“参考集”真实视频剪辑来适配通用扩散模型。
  • 此步骤将模型的潜在空间与主体独特的面部动态和身份线索对齐。

3. 通过重建误差进行伪造评分

  • 当提供测试视频时,系统将其音频输入个性化模型并重建预期的表情序列。
  • 身份距离(例如重建后与观测到的面部特征之间的 L2 范数)作为伪造分数:误差越大表明视觉流与音频驱动的期望不匹配,暗示被篡改。

4. 零‑样本检测流程

  • 在任何阶段都不需要伪造示例;检测器仅依赖音频驱动预测与实际视频之间的不匹配。

结果与发现

数据集之前的 SOTA AUCExposeAnyone AUCΔ AUC
DF‑TIMIT84.1 %88.3 %+4.2 %
DFDCP81.7 %85.9 %+4.2 %
KoDF78.4 %82.6 %+4.2 %
IDForge80.2 %84.5 %+4.3 %
  • Sora2 检测 – ExposeAnyone 能正确标记 Sora2‑生成的视频(AUC ≈ 87 %),而最佳竞争方法跌破 70 %。
  • 抗腐蚀性 – 在强 Gaussian blur(σ = 5)和 JPEG 压缩(Q = 20)下,AUC 下降 < 2 %,而监督基线下降 > 6 %。

这些数字表明,音频驱动的重建误差是一个强大、与操纵方式无关的线索。

Practical Implications

  • Content‑moderation platforms – 为高风险账户(例如公众人物)部署轻量级的“个性化”步骤,并在不维护持续更新的假数据集的情况下进行实时伪造检查。
  • Authentication pipelines – 在基于视频的身份验证(例如远程 KYC)中添加“音频表达一致性”检查,以防止深度伪造攻击。
  • Tooling for developers – 将扩散模型导出为 ONNX/TensorRT 图,实现与现有视频处理后端的集成,仅需适度的 GPU 资源。
  • Forensic analysis – 使用重建误差热图精确定位视频与预期面部动态的偏差,帮助人工审查。

限制与未来工作

  • Reference data requirement – 个性化需要每个主体几秒的干净视频;对于完全未知的身份,该方法效果较差。
  • Audio quality dependence – 极度嘈杂或配音的音频会降低重建保真度,可能导致误报增加。
  • Scalability to large user bases – 为数百万用户维护个性化模型将需要模型共享策略或即时微调。
  • Future directions – 探索少样本元学习以减少参考数据,扩展至多模态线索(如唇读 + 面部运动),并优化扩散推理以在边缘设备上部署。

作者

  • Kaede Shiohara
  • Toshihiko Yamasaki
  • Vladislav Golyanik

论文信息

  • arXiv ID: 2601.02359v1
  • Categories: cs.CV
  • Published: 2026年1月5日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »