[Paper] 研究在音频深度伪造检测背景下使用多模态大型语言模型的可行性
发布: (2026年1月3日 GMT+8 02:17)
7 min read
原文: arXiv
Source: arXiv - 2601.00777v1
Overview
本文探讨了 多模态大型语言模型(MLLMs)——在图像和视频深度伪造检测方面表现出色——是否可以重新用于 音频深度伪造检测。通过将音频片段与精心设计的文本提示一起输入,作者测试这些模型是否能够学习稳健的跨模态表征,从而识别合成语音。研究结果表明,在仅进行少量任务特定微调的情况下,MLLMs 在域内音频深度伪造数据上即可实现竞争性的性能,为面向安全的 AI 工具开辟了新方向。
关键贡献
- 首次系统性研究 将 Vision‑Language/Multimodal LLMs 应用于音频深度伪造检测。
- 引入了 多提示策略,将音频输入与基于文本的查询(问答式和二元决策)相结合,以引导模型的推理。
- 在 零样本 和 微调 两种设置下评估了两种最先进的 MLLM——Qwen2‑Audio‑7B‑Instruct 和 SALMONN。
- 证明 极少监督(少样本微调)即可在领域内实现强检测,同时凸显模型在领域外泛化方面的困难。
- 为未来在音频深度伪造检测的多模态方法研究提供了 经验基线。
方法论
-
数据准备
- 收集了真实和合成语音样本的基准数据(例如来自 ASVspoof、WaveFake)。
- 将数据划分为 域内(与训练分布相同)和 域外(说话人、录音条件不同)两套。
-
提示设计
- 构造 文本提示 作为对模型的查询,例如
- “这段音频是真实的还是生成的?”(二分类)
- “解释一下这段语音可能是深度伪造的原因。”(推理)
- 将每个音频样本的多个提示拼接在一起,以提供更丰富的上下文。
- 构造 文本提示 作为对模型的查询,例如
-
模型配置
- 零样本:直接将音频 + 提示输入预训练的多模态大模型(MLLM),不进行权重更新。
- 微调:在少量标注子集上轻度微调整个模型(或仅微调投影头),实现 few‑shot 学习。
-
评估指标
- 主要:二分类检测的 等错误率(EER) 和 受试者工作特征曲线下面积(AUC)。
- 次要:通过推理提示生成的模型解释进行定性分析。
-
实现细节
- 使用模型内置的前端(例如 wav2vec‑style 编码器)对音频进行编码。
- 文本提示使用与 LLM 相同的分词器进行分词,确保多模态融合的无缝衔接。
结果与发现
| 模型 | 设置 | 域内 EER ↓ | 域外 EER ↑ |
|---|---|---|---|
| Qwen2‑Audio‑7B‑Instruct | 零样本 | ~28% | >45% |
| Qwen2‑Audio‑7B‑Instruct | 微调(少样本) | 12% | ~30% |
| SALMONN | 零样本 | ~31% | >48% |
| SALMONN | 微调(少样本) | 14% | ~33% |
- 使用少量标注示例进行微调可显著降低同域的 EER,这表明模型在获得任务特定信号后能够快速适应。
- 零样本性能较弱,说明仅凭原始多模态知识不足以完成音频深度伪造检测。
- 域外性能下降仍然显著,凸显需要更好的泛化技术(例如,域自适应提示或数据增强)。
- 推理提示能够生成可解释的解释,尽管其准确性与检测性能相关联。
实际意义
- 快速原型:开发者可以利用现有的 MLLM(例如 Qwen2‑Audio)作为音频深度伪造检测器的起点,只需少量、精心挑选的微调数据集。
- 统一安全栈:已经使用基于视觉的深度伪造检测器的组织可以将相同的多模态基础设施扩展到音频,从而简化部署流水线。
- 可解释性:问答提示产生人类可读的推理,适用于合规审计或面向用户的信任信号。
- 边缘就绪变体:由于模型只有 7 B 参数,可进行蒸馏或量化,以在语音助手、呼叫中心监控或流媒体平台上实现设备端推理。
- 提示工程即特征:多提示方法表明,精心设计的提示可以充当轻量级的“特征提取器”,降低对重型声学特征工程的需求。
Limitations & Future Work
- Generalisation Gap:模型在域外音频上仍表现不佳,表明需要更大、更多样化的训练语料库或领域自适应提示。
- Data Efficiency:虽然少量示例微调有帮助,但尚未充分探讨实现稳定性能所需的标注数据的具体数量。
- Model Size vs. Latency:7 B 参数的模型在没有进一步优化的情况下,可能对实时、高吞吐量服务来说过于沉重。
- Prompt Sensitivity:性能随提示措辞而变化;可以研究系统化的提示搜索方法。
- Broader Modalities:将该方法扩展到 audio‑visual deepfakes(例如唇形同步攻击),有望实现更全面的反欺骗解决方案。
总体而言,研究表明多模态 LLM 在音频深度伪造检测方面具有潜力,尤其是结合智能提示和适度微调时,但仍需进一步工作以使其在真实环境中具备鲁棒性。
作者
- Akanksha Chuchra
- Shukesh Reddy
- Sudeepta Mishra
- Abhijit Das
- Abhinav Dhall
论文信息
- arXiv ID: 2601.00777v1
- 分类: cs.SD, cs.CV
- 出版日期: 2026年1月2日
- PDF: 下载 PDF