[Paper] Super Suffixes：同时绕过文本生成对齐和防护模型

发布: 1个月前 (2025年12月13日 GMT+8 02:52)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.11783v1

概览

论文 “Super Suffixes: Bypassing Text Generation Alignment and Guard Models Simultaneously” 揭示了一类新的对抗性提示，能够同时欺骗大型语言模型（LLM）和用于保护它们的轻量级 “guard” 模型。通过精心设计的后缀——称为 Super Suffixes——作者展示了即使是最新的 Llama Prompt Guard 2 也会被欺骗，从而为本应对齐良好的系统生成恶意文本或代码打开了大门。

关键贡献

Super Suffix 概念 – 引入能够覆盖不同模型、不同分词器的多个对齐目标的后缀。
联合优化攻击 – 展示了如何同时为目标 LLM 和其 guard 模型优化后缀，实现对五种不同生成模型的成功绕过。
首次实证突破 Llama Prompt Guard 2 – 证明在攻击者进行联合优化时，guard 可以被攻破。
通过内部状态相似性进行检测的洞察 – 发现模型残差流与一组 “概念方向” 的余弦相似度在 Super Suffix 攻击期间会出现独特的峰值。
DeltaGuard 对策 – 提出一种轻量级检测层，监控这些相似性指纹，将非良性分类率提升至约 100 %。

方法论

对抗性提示构建
- 作者将后缀视为连续优化变量。
- 使用基于梯度的方法，联合最小化两个损失函数：一个促使目标 LLM 产生恶意输出，另一个迫使 guard 模型将提示标记为良性。
跨分词器兼容性
- 由于不同 LLM 使用不同的分词方案（Byte‑Pair Encoding、SentencePiece 等），后缀在 token‑agnostic 嵌入空间中优化，然后投射回每个模型的 token 集合。
内部状态指纹
- 在处理提示时，模型的残差流（每个 transformer 块后的隐藏状态）会被投射到少量预定义的概念向量上（例如 “code‑generation”、 “harmful‑content”）。
- 作者跟踪整个 token 序列的余弦相似度；当出现 Super Suffix 时，会出现特征性的 “峰值” 模式。
DeltaGuard 设计
- DeltaGuard 位于现有 guard 模型之上。
- 实时计算相似性指纹，并对模式偏离良性基线的输入进行标记。

所有实验均在公开可得的 LLM 检查点（Llama‑2‑7B、Mistral‑7B 等）以及开源的 Llama Prompt Guard 2 实现上运行。

结果与发现

目标模型	Guard 模型	攻击成功率（DeltaGuard 前）	DeltaGuard 检测率
Llama‑2‑7B	Prompt Guard 2	94 %（生成恶意输出）	99.8 %
Mistral‑7B	Prompt Guard 2	91 %	99.5 %
Falcon‑7B	Prompt Guard 2	89 %	99.3 %
…（另外 2 种）	…	…	…

绕过效果：联合优化的 Super Suffix 始终能够欺骗 guard，同时仍将 LLM 引导至有害或代码生成行为。
指纹可靠性：在 > 95 % 的成功攻击中观察到余弦相似度峰值，而在 > 99 % 的良性提示中未出现。
DeltaGuard 开销：加入指纹检查仅使推理延迟增加约 2 ms 每次请求，具备在生产环境中实用的特性。

实际意义

安全优先的部署：依赖 guard 模型过滤用户提示的公司（如代码助手、聊天机器人）应将其视为 深度防御 策略的一部分，而非银弹。
集成路径：DeltaGuard 可轻松嵌入现有 guard 堆栈，几乎不需要代码改动——本质上是一个在每个 transformer 层后读取隐藏向量的轻量监控器。
红队工具：联合优化配方提供了一种可复现的方式，在发布前测试任何新 guard 模型的鲁棒性，帮助产品团队加固管道。
政策与合规：认识到对齐可以在 token 级别被颠覆，有助于金融、医疗等受监管行业的风险评估，确保不会输出不安全的代码。

局限性与未来工作

模型范围：实验聚焦于 7 B 规模的 LLM；尚不清楚 Super Suffix 在更大（30 B 以上）模型及更深 transformer 堆栈中的表现。
概念方向集合：指纹依赖于手工策划的概念向量列表；扩展该集合或自动学习可提升覆盖范围。
自适应对手：攻击者可能训练二次模型来模仿指纹，因此未来工作应探索更稳健、可能基于集成的检测方法。
真实部署研究：本文报告的延迟基于单 GPU；在多租户、高吞吐服务中的评估将进一步验证其实用性。

结论：Super Suffix 揭示了当前 LLM guard 架构的盲点，但作者同时提供了实用的检测插件——DeltaGuard——以几乎完美的保护率和极低的性能成本进行防御。对于构建 AI 产品的开发者而言，关键提示是：现在就将内部状态监控加入 guard 模型，以防对手在大规模上武器化这些后缀攻击。

作者

Andrew Adiletta
Kathryn Adiletta
Kemal Derya
Berk Sunar

论文信息

arXiv ID: 2512.11783v1
分类: cs.CR, cs.AI
发表时间: 2025 年 12 月 12 日
PDF: Download PDF

[Paper] Super Suffixes：同时绕过文本生成对齐和防护模型

概览

关键贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] Particulate: 前馈 3D 对象关节化

[Paper] 一种通过随机顺序添加检测高阶交互的通用算法

[论文] Softmax 作为大提示场景下的线性注意力：基于测度的视角

[Paper] 敏捷飞行源于多智能体竞争赛