【论文】SEMA：简单而有效的多轮越狱攻击学习

发布: 3天前 (2026年2月7日 GMT+8 00:44)

8 分钟阅读

原文: arXiv

Source: arXiv - 2602.06854v1

（请提供您希望翻译的具体文本内容，我将为您翻译成简体中文，并保留原始的格式、Markdown 语法以及技术术语。）

概述

本文介绍了 SEMA，一个轻量级框架，用于训练多轮 jailbreak 攻击者，使其能够诱导安全对齐的聊天机器人生成有害内容。通过直接从自行生成的对抗对话中学习，SEMA 省去了手工编写攻击脚本或使用外部数据的需求，较以往的单轮和多轮方法实现了显著更高的成功率。

Self‑tuning pre‑fill stage: 在攻击者模型自身的非拒绝、结构良好的多轮提示上进行微调，稳定后续的强化学习。
Intent‑drift‑aware reward: 一种新颖的强化学习奖励，能够同时强化原始恶意意图、惩罚顺从行为，并奖励详细的有害输出。
Open‑loop attack regime: 消除对受害模型反馈的依赖，降低探索复杂度，并统一单轮和多轮攻击设置。
State‑of‑the‑art performance: 在 AdvBench 上针对三种受害模型实现平均 80.1 % 的攻击成功率 (ASR@1)，比之前的最佳提升了 33.9 % 的绝对值。
Transferability & reproducibility: 证明在一个模型上训练的攻击能够轻松迁移到其他模型，并发布了紧凑的开源实现。

预填充自调优
- 以一个被指定为 攻击者 的语言模型开始。
- 用最小种子提示（例如 “解释如何…”）让它生成一个完整的多轮对话，该对话不会触发拒绝。
- 收集这些自生成的、未被拒绝的对话，并在其上对攻击者进行微调。这种 “自调优” 为模型提供了一套可行、结构良好的 jailbreak 提示，在任何强化学习之前。
带意图漂移感知奖励的强化学习
- 定义一个融合三部分的奖励：
  - 意图对齐 – 生成的对话必须保持原始有害目标（例如 “制造炸弹”）。
  - 合规风险 – 对任何受害者会拒绝或进行安全防护的回合进行惩罚。
  - 细节程度 – 鼓励更丰富、更可操作的指令。
- 在自调优后的攻击者上运行策略梯度 RL（PPO），仅使用受害者的二元拒绝信号（或代理评判器）作为反馈，而不是完整的响应内容。
- 由于奖励是离线从攻击者自身输出计算的，过程是开环的：训练期间从不查询受害者模型，从而大幅降低探索成本。
评估流程
- 在 AdvBench 基准上，对训练好的攻击者进行测试，针对多个受害者 LLM（包括闭源和开源）。
- 使用多种 jailbreak 判定器（包括人工在环检查）来验证最终的受害者响应是否真的有害。

受害模型	Avg. ASR@1 (SEMA)	Prior SOTA	Gain
Closed‑source A	81.4 %	48.7 %	+32.7 %
Closed‑source B	78.9 %	45.2 %	+33.7 %
Open‑source C	79.9 %	50.5 %	+29.4 %
总体平均	80.1 %	46.2 %	+33.9 %

未来的研究方向包括集成更丰富的语义意图表示，探索在受限受害者查询下的闭环强化学习，以及扩展基准以覆盖更广泛的安全关键使用案例。