[Paper] Super Suffixes:同时绕过文本生成对齐和防护模型

发布: (2025年12月13日 GMT+8 02:52)
7 min read
原文: arXiv

Source: arXiv - 2512.11783v1

概览

论文 “Super Suffixes: Bypassing Text Generation Alignment and Guard Models Simultaneously” 揭示了一类新的对抗性提示,能够同时欺骗大型语言模型(LLM)和用于保护它们的轻量级 “guard” 模型。通过精心设计的后缀——称为 Super Suffixes——作者展示了即使是最新的 Llama Prompt Guard 2 也会被欺骗,从而为本应对齐良好的系统生成恶意文本或代码打开了大门。

关键贡献

  • Super Suffix 概念 – 引入能够覆盖不同模型、不同分词器的多个对齐目标的后缀。
  • 联合优化攻击 – 展示了如何同时为目标 LLM 和其 guard 模型优化后缀,实现对五种不同生成模型的成功绕过。
  • 首次实证突破 Llama Prompt Guard 2 – 证明在攻击者进行联合优化时,guard 可以被攻破。
  • 通过内部状态相似性进行检测的洞察 – 发现模型残差流与一组 “概念方向” 的余弦相似度在 Super Suffix 攻击期间会出现独特的峰值。
  • DeltaGuard 对策 – 提出一种轻量级检测层,监控这些相似性指纹,将非良性分类率提升至约 100 %。

方法论

  1. 对抗性提示构建

    • 作者将后缀视为连续优化变量。
    • 使用基于梯度的方法,联合最小化两个损失函数:一个促使目标 LLM 产生恶意输出,另一个迫使 guard 模型将提示标记为良性。
  2. 跨分词器兼容性

    • 由于不同 LLM 使用不同的分词方案(Byte‑Pair Encoding、SentencePiece 等),后缀在 token‑agnostic 嵌入空间中优化,然后投射回每个模型的 token 集合。
  3. 内部状态指纹

    • 在处理提示时,模型的残差流(每个 transformer 块后的隐藏状态)会被投射到少量预定义的概念向量上(例如 “code‑generation”、 “harmful‑content”)。
    • 作者跟踪整个 token 序列的余弦相似度;当出现 Super Suffix 时,会出现特征性的 “峰值” 模式。
  4. DeltaGuard 设计

    • DeltaGuard 位于现有 guard 模型之上。
    • 实时计算相似性指纹,并对模式偏离良性基线的输入进行标记。

所有实验均在公开可得的 LLM 检查点(Llama‑2‑7B、Mistral‑7B 等)以及开源的 Llama Prompt Guard 2 实现上运行。

结果与发现

目标模型Guard 模型攻击成功率(DeltaGuard 前)DeltaGuard 检测率
Llama‑2‑7BPrompt Guard 294 %(生成恶意输出)99.8 %
Mistral‑7BPrompt Guard 291 %99.5 %
Falcon‑7BPrompt Guard 289 %99.3 %
…(另外 2 种)
  • 绕过效果:联合优化的 Super Suffix 始终能够欺骗 guard,同时仍将 LLM 引导至有害或代码生成行为。
  • 指纹可靠性:在 > 95 % 的成功攻击中观察到余弦相似度峰值,而在 > 99 % 的良性提示中未出现。
  • DeltaGuard 开销:加入指纹检查仅使推理延迟增加约 2 ms 每次请求,具备在生产环境中实用的特性。

实际意义

  • 安全优先的部署:依赖 guard 模型过滤用户提示的公司(如代码助手、聊天机器人)应将其视为 深度防御 策略的一部分,而非银弹。
  • 集成路径:DeltaGuard 可轻松嵌入现有 guard 堆栈,几乎不需要代码改动——本质上是一个在每个 transformer 层后读取隐藏向量的轻量监控器。
  • 红队工具:联合优化配方提供了一种可复现的方式,在发布前测试任何新 guard 模型的鲁棒性,帮助产品团队加固管道。
  • 政策与合规:认识到对齐可以在 token 级别被颠覆,有助于金融、医疗等受监管行业的风险评估,确保不会输出不安全的代码。

局限性与未来工作

  • 模型范围:实验聚焦于 7 B 规模的 LLM;尚不清楚 Super Suffix 在更大(30 B 以上)模型及更深 transformer 堆栈中的表现。
  • 概念方向集合:指纹依赖于手工策划的概念向量列表;扩展该集合或自动学习可提升覆盖范围。
  • 自适应对手:攻击者可能训练二次模型来模仿指纹,因此未来工作应探索更稳健、可能基于集成的检测方法。
  • 真实部署研究:本文报告的延迟基于单 GPU;在多租户、高吞吐服务中的评估将进一步验证其实用性。

结论:Super Suffix 揭示了当前 LLM guard 架构的盲点,但作者同时提供了实用的检测插件——DeltaGuard——以几乎完美的保护率和极低的性能成本进行防御。对于构建 AI 产品的开发者而言,关键提示是:现在就将内部状态监控加入 guard 模型,以防对手在大规模上武器化这些后缀攻击。

作者

  • Andrew Adiletta
  • Kathryn Adiletta
  • Kemal Derya
  • Berk Sunar

论文信息

  • arXiv ID: 2512.11783v1
  • 分类: cs.CR, cs.AI
  • 发表时间: 2025 年 12 月 12 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »