【论文】SEMA:简单而有效的多轮越狱攻击学习
发布: (2026年2月7日 GMT+8 00:44)
8 分钟阅读
原文: arXiv
Source: arXiv - 2602.06854v1
(请提供您希望翻译的具体文本内容,我将为您翻译成简体中文,并保留原始的格式、Markdown 语法以及技术术语。)
概述
本文介绍了 SEMA,一个轻量级框架,用于训练多轮 jailbreak 攻击者,使其能够诱导安全对齐的聊天机器人生成有害内容。通过直接从自行生成的对抗对话中学习,SEMA 省去了手工编写攻击脚本或使用外部数据的需求,较以往的单轮和多轮方法实现了显著更高的成功率。
关键贡献
- Self‑tuning pre‑fill stage: 在攻击者模型自身的非拒绝、结构良好的多轮提示上进行微调,稳定后续的强化学习。
- Intent‑drift‑aware reward: 一种新颖的强化学习奖励,能够同时强化原始恶意意图、惩罚顺从行为,并奖励详细的有害输出。
- Open‑loop attack regime: 消除对受害模型反馈的依赖,降低探索复杂度,并统一单轮和多轮攻击设置。
- State‑of‑the‑art performance: 在 AdvBench 上针对三种受害模型实现平均 80.1 % 的攻击成功率 (ASR@1),比之前的最佳提升了 33.9 % 的绝对值。
- Transferability & reproducibility: 证明在一个模型上训练的攻击能够轻松迁移到其他模型,并发布了紧凑的开源实现。
方法论
-
预填充自调优
- 以一个被指定为 攻击者 的语言模型开始。
- 用最小种子提示(例如 “解释如何…”)让它生成一个完整的多轮对话,该对话 不会 触发拒绝。
- 收集这些自生成的、未被拒绝的对话,并在其上对攻击者进行微调。这种 “自调优” 为模型提供了一套可行、结构良好的 jailbreak 提示,在任何强化学习之前。
-
带意图漂移感知奖励的强化学习
- 定义一个融合三部分的奖励:
- 意图对齐 – 生成的对话必须保持原始有害目标(例如 “制造炸弹”)。
- 合规风险 – 对任何受害者会拒绝或进行安全防护的回合进行惩罚。
- 细节程度 – 鼓励更丰富、更可操作的指令。
- 在自调优后的攻击者上运行策略梯度 RL(PPO),仅使用受害者的 二元 拒绝信号(或代理评判器)作为反馈,而不是完整的响应内容。
- 由于奖励是离线从攻击者自身输出计算的,过程是 开环 的:训练期间从不查询受害者模型,从而大幅降低探索成本。
- 定义一个融合三部分的奖励:
-
评估流程
- 在 AdvBench 基准上,对训练好的攻击者进行测试,针对多个受害者 LLM(包括闭源和开源)。
- 使用多种 jailbreak 判定器(包括人工在环检查)来验证最终的受害者响应是否真的有害。
Results & Findings
| 受害模型 | Avg. ASR@1 (SEMA) | Prior SOTA | Gain |
|---|---|---|---|
| Closed‑source A | 81.4 % | 48.7 % | +32.7 % |
| Closed‑source B | 78.9 % | 45.2 % | +33.7 % |
| Open‑source C | 79.9 % | 50.5 % | +29.4 % |
| 总体平均 | 80.1 % | 46.2 % | +33.9 % |
- 单轮基线(例如标准提示注入)实现的 ASR 低于 50 %,这证实了多轮交互对于实现真实 jailbreak 至关重要。
- 基于模板的多轮攻击 相较单轮有所提升,但仍比 SEMA 低约 15–20 % 的绝对值。
- 迁移实验 表明,在模型 A 上训练的攻击者在针对模型 B 时仍能保持 >70 % 的 ASR,显示出强大的跨模型泛化能力。
- 消融研究显示,去除意图漂移组件会导致 ASR 下降约 12 %,而跳过自我调优阶段会降低稳定性并导致策略发散。
实际影响
- 红队自动化:组织可以将 SEMA 集成到安全测试流水线中,自动生成真实的、多轮的 jailbreak 尝试,揭示手动测试遗漏的失效模式。
- 安全对齐模型开发:意图漂移感知奖励提供了一个具体指标,用于衡量模型在对话轮次中保持原始安全意图的程度,从而指导更稳健的对齐策略。
- 政策与治理:监管机构和平台运营者可以使用 SEMA 生成的对抗样本,对已部署的大语言模型在新兴威胁模型下的合规性进行基准测试。
- 开发者工具:开源代码和预训练的攻击者检查点使开发者能够轻松评估自己的聊天机器人,而无需为穷尽的提示工程投入大量计算资源。
限制与未来工作
- 奖励近似:意图漂移奖励依赖于启发式方法(例如关键词匹配、分类器得分),可能无法捕捉细微的恶意意图,可能导致误报/漏报。
- 开环假设:虽然去除受害者反馈可以加快训练,但也忽略了在对话过程中会自适应的动态防御,这可能影响真实场景下攻击的有效性。
- 有害目标的范围:实验聚焦于一小部分非法主题(例如武器制造、网络钓鱼)。将其扩展到更广泛或更微妙的危害(例如错误信息)仍是一个未解决的挑战。
- 对更大攻击者的可扩展性:当前的攻击者模型规模较小;将 SEMA 扩展到更大、更具表达能力的攻击者可能进一步提升成功率,但也会增加计算成本。
未来的研究方向包括集成更丰富的语义意图表示,探索在受限受害者查询下的闭环强化学习,以及扩展基准以覆盖更广泛的安全关键使用案例。
作者
- Mingqian Feng
- Xiaodong Liu
- Weiwei Yang
- Jialin Song
- Xuekai Zhu
- Chenliang Xu
- Jianfeng Gao
论文信息
- arXiv ID: 2602.06854v1
- 分类: cs.CL
- 发布日期: 2026年2月6日
- PDF: 下载 PDF