[Paper] Super Suffixes:同时绕过文本生成对齐和防护模型
发布: (2025年12月13日 GMT+8 02:52)
7 min read
原文: arXiv
Source: arXiv - 2512.11783v1
概览
论文 “Super Suffixes: Bypassing Text Generation Alignment and Guard Models Simultaneously” 揭示了一类新的对抗性提示,能够同时欺骗大型语言模型(LLM)和用于保护它们的轻量级 “guard” 模型。通过精心设计的后缀——称为 Super Suffixes——作者展示了即使是最新的 Llama Prompt Guard 2 也会被欺骗,从而为本应对齐良好的系统生成恶意文本或代码打开了大门。
关键贡献
- Super Suffix 概念 – 引入能够覆盖不同模型、不同分词器的多个对齐目标的后缀。
- 联合优化攻击 – 展示了如何同时为目标 LLM 和其 guard 模型优化后缀,实现对五种不同生成模型的成功绕过。
- 首次实证突破 Llama Prompt Guard 2 – 证明在攻击者进行联合优化时,guard 可以被攻破。
- 通过内部状态相似性进行检测的洞察 – 发现模型残差流与一组 “概念方向” 的余弦相似度在 Super Suffix 攻击期间会出现独特的峰值。
- DeltaGuard 对策 – 提出一种轻量级检测层,监控这些相似性指纹,将非良性分类率提升至约 100 %。
方法论
-
对抗性提示构建
- 作者将后缀视为连续优化变量。
- 使用基于梯度的方法,联合最小化两个损失函数:一个促使目标 LLM 产生恶意输出,另一个迫使 guard 模型将提示标记为良性。
-
跨分词器兼容性
- 由于不同 LLM 使用不同的分词方案(Byte‑Pair Encoding、SentencePiece 等),后缀在 token‑agnostic 嵌入空间中优化,然后投射回每个模型的 token 集合。
-
内部状态指纹
- 在处理提示时,模型的残差流(每个 transformer 块后的隐藏状态)会被投射到少量预定义的概念向量上(例如 “code‑generation”、 “harmful‑content”)。
- 作者跟踪整个 token 序列的余弦相似度;当出现 Super Suffix 时,会出现特征性的 “峰值” 模式。
-
DeltaGuard 设计
- DeltaGuard 位于现有 guard 模型之上。
- 实时计算相似性指纹,并对模式偏离良性基线的输入进行标记。
所有实验均在公开可得的 LLM 检查点(Llama‑2‑7B、Mistral‑7B 等)以及开源的 Llama Prompt Guard 2 实现上运行。
结果与发现
| 目标模型 | Guard 模型 | 攻击成功率(DeltaGuard 前) | DeltaGuard 检测率 |
|---|---|---|---|
| Llama‑2‑7B | Prompt Guard 2 | 94 %(生成恶意输出) | 99.8 % |
| Mistral‑7B | Prompt Guard 2 | 91 % | 99.5 % |
| Falcon‑7B | Prompt Guard 2 | 89 % | 99.3 % |
| …(另外 2 种) | … | … | … |
- 绕过效果:联合优化的 Super Suffix 始终能够欺骗 guard,同时仍将 LLM 引导至有害或代码生成行为。
- 指纹可靠性:在 > 95 % 的成功攻击中观察到余弦相似度峰值,而在 > 99 % 的良性提示中未出现。
- DeltaGuard 开销:加入指纹检查仅使推理延迟增加约 2 ms 每次请求,具备在生产环境中实用的特性。
实际意义
- 安全优先的部署:依赖 guard 模型过滤用户提示的公司(如代码助手、聊天机器人)应将其视为 深度防御 策略的一部分,而非银弹。
- 集成路径:DeltaGuard 可轻松嵌入现有 guard 堆栈,几乎不需要代码改动——本质上是一个在每个 transformer 层后读取隐藏向量的轻量监控器。
- 红队工具:联合优化配方提供了一种可复现的方式,在发布前测试任何新 guard 模型的鲁棒性,帮助产品团队加固管道。
- 政策与合规:认识到对齐可以在 token 级别被颠覆,有助于金融、医疗等受监管行业的风险评估,确保不会输出不安全的代码。
局限性与未来工作
- 模型范围:实验聚焦于 7 B 规模的 LLM;尚不清楚 Super Suffix 在更大(30 B 以上)模型及更深 transformer 堆栈中的表现。
- 概念方向集合:指纹依赖于手工策划的概念向量列表;扩展该集合或自动学习可提升覆盖范围。
- 自适应对手:攻击者可能训练二次模型来模仿指纹,因此未来工作应探索更稳健、可能基于集成的检测方法。
- 真实部署研究:本文报告的延迟基于单 GPU;在多租户、高吞吐服务中的评估将进一步验证其实用性。
结论:Super Suffix 揭示了当前 LLM guard 架构的盲点,但作者同时提供了实用的检测插件——DeltaGuard——以几乎完美的保护率和极低的性能成本进行防御。对于构建 AI 产品的开发者而言,关键提示是:现在就将内部状态监控加入 guard 模型,以防对手在大规模上武器化这些后缀攻击。
作者
- Andrew Adiletta
- Kathryn Adiletta
- Kemal Derya
- Berk Sunar
论文信息
- arXiv ID: 2512.11783v1
- 分类: cs.CR, cs.AI
- 发表时间: 2025 年 12 月 12 日
- PDF: Download PDF