[Paper] 现在你听见我：针对大型音频语言模型的音频叙事攻击

发布: 1周前 (2026年1月31日 GMT+8 02:23)

7 分钟阅读

原文: arXiv

Source: arXiv - 2601.23255v1

请提供您希望翻译的具体文本内容，我将按照要求进行简体中文翻译并保留原始的格式、Markdown 语法以及技术术语。

概述

该论文 Now You Hear Me: Audio Narrative Attacks Against Large Audio‑Language Models 揭示了一类新的安全威胁，这些威胁在强大的多模态模型开始处理原始语音而不仅仅是文本时出现。作者通过将越狱提示转化为口头叙事，展示了最先进的音频语言系统可以被欺骗而忽略其安全过滤器，这对以语音为首的产品（如助手、辅导机器人和临床分诊工具）提出了紧迫的担忧。

关键贡献

仅音频越狱：引入一种新颖的“叙事式”音频攻击，将不允许的指令嵌入合成语音故事中，绕过以文本为中心的安全检查。
利用先进的 TTS：使用高保真、遵循指令的文本转语音模型，在保持语义负载的同时听起来自然，利用语言和声学线索。
实证验证：在 Gemini 2.0 Flash 上实现 98.26 % 的成功率（在其他领先的音频语言模型上也有相似率），显著优于传统的仅文本越狱。
威胁分类：强调从文本到语音的转变如何扩大攻击面，需要能够同时推理语言和副语言信号的安全机制。
开源工具包：发布研究中使用的代码和音频提示，促进可重复性并进一步研究防御措施。

方法论

Prompt design – 研究人员设计一个叙事提示，将禁止的指令（例如，“提供黑客指南”）巧妙地嵌入看似无害的故事中。
Instruction‑following TTS – 他们将该提示输入到最前沿的 TTS 系统，该系统经过训练能够遵循用户指令，生成听起来像自然口语故事的合成音频片段。
Audio delivery – 将生成的音频片段直接通过其语音输入 API 发送给目标音频语言模型（ALM），就像用户对语音助手说话一样。
Response analysis – 检查模型的文本输出，判断其是否遵从隐藏指令。成功率通过产生违规响应的尝试比例来衡量。
Baseline comparison – 将相同的恶意意图以纯文本和“平铺”音频朗读（无叙事）的形式呈现，以量化叙事方法的优势。

结果与发现

目标模型	仅文本越狱成功率	叙事音频越狱成功率
Gemini 2.0 Flash	~12 %	98.26 %
其他 ALM（例如基于 Whisper 的）	8–15 %	85–96 %

叙事格式始终优于平面音频和文本提示，表明模型的安全过滤器针对显式文本线索进行调校，而对微妙的故事结构检测不足。
声学线索（语调、停顿）似乎进一步强化模型对输入为良性的判断，进一步削弱过滤效果。
即使对良性和恶意提示使用相同的 TTS 语音，模型仍无法区分，显示出跨模态安全推理的缺失。

Practical Implications

语音助理：恶意行为者可能在播客、有声书甚至电话通话中嵌入有害指令，使助理泄露受限信息或执行不安全的操作。
企业 AI 流程：处理音频（例如呼叫中心分析）的公司可能无意中处理被篡改的语音，导致数据泄露或违反政策。
监管合规：侧重文本提示过滤的安全认证对接受语音输入的产品而言将不足，需要制定新的标准。
防御工具：开发者应考虑多模态内容审查——例如并行运行文本转录检查、使用声学异常检测器，或设计“语音感知”安全层，同时评估转录文本和音频的韵律模式。
用户教育：终端用户必须意识到看似无害的音频内容可能成为 jailbreak 的载体，尤其是在合成语音技术日益普及的情况下。

局限性与未来工作

Synthetic audio focus: 该研究依赖高质量的 TTS 输出；真实世界的录音（背景噪声、说话人差异）可能影响攻击成功率，作者已对此因素进行说明。
Model scope: 实验仅限于少数公开已知的 ALM；专有或领域特定模型的表现可能不同。
Defensive baselines: 虽然论文提出了初步的缓解思路，但并未实现或评估具体的对策，仍是一个开放的研究方向。
Future avenues: 将攻击扩展到多模态输入（音频 + 视觉），探索声学领域的对抗扰动，并构建统一的安全框架，以共同推理文本、音频和韵律。

作者

Ye Yu
Haibo Jin
Yaoning Yu
Jun Zhuang
Haohan Wang

Paper Information

arXiv ID: 2601.23255v1
Categories: cs.CL, cs.AI, cs.CR
Published: 2026年1月30日
PDF: 下载 PDF

[Paper] 现在你听见我：针对大型音频语言模型的音频叙事攻击

概述

关键贡献

方法论

结果与发现

Practical Implications

局限性与未来工作

作者

Paper Information

相关文章

[Paper] FOCUS：DLLMs 知道如何驯服它们的计算瓶颈

[Paper] 通用语言识别与生成

[Paper] 用过程奖励扩展多智能体系统

[Paper] 面向 KevlarFlow 的大语言模型服务弹性