[Paper] 成为你自己的 Red Teamer:Safety Alignment via Self-Play 和 Reflective Experience Replay

发布: (2026年1月16日 GMT+8 01:00)
7 min read
原文: arXiv

Source: arXiv - 2601.10589v1

Overview

本文介绍了 Safety Self‑Play (SSP),这是一种新颖的框架,使单个大型语言模型(LLM)能够在持续的强化学习循环中同时充当攻击者和防御者。通过自行生成越狱尝试并立即学习拒绝这些尝试,模型能够发现并修补静态、人工构建的红队数据集所遗漏的安全漏洞。作者展示了这种自我对弈的方法相较于传统的“固定提示”防御,能够实现更具适应性和更稳健的安全对齐。

关键贡献

  • 自包含的红队/蓝队循环: 使用单个 LLM 在统一的强化学习环境中同时生成对抗性提示(Attacker)并产生安全拒绝(Defender)。
  • 反思经验回放: 将失败案例存入经验池,并使用上置信界(UCB)策略进行采样,重点学习最困难、低奖励的示例,同时仍鼓励探索。
  • 动态攻击进化: Attacker 持续改进 jailbreak 技术,防止 Defender 对静态威胁集合产生过拟合。
  • 实证基准: 证明 SSP 在多个安全指标(如拒绝率、误报率降低)上优于在静态对抗语料上训练的基线。
  • 开源基线: 提供代码和可复现的训练流水线,鼓励社区扩展自我对弈安全对齐。

方法论

  1. 统一 RL 公式

    • LLM 在每个回合实例化两次:一个 Attacker 接收良性用户查询并尝试将其转化为 jailbreak,另一个 Defender 接收 jailbreak 并必须拒绝或安全响应。
    • 两个代理共享相同的底层模型权重,但保有独立的策略头以允许行为分歧。
  2. 奖励设计

    • Attacker Reward: 当 jailbreak 成功(即 Defender 产生不允许的响应)时为正。
    • Defender Reward: 对正确的拒绝给予正奖励,对不安全的输出进行惩罚。
  3. 反思经验回放 (RER)

    • 每个回合的 (state, action, reward) 元组存入经验池。
    • 基于 UCB‑based sampler 的采样器优先抽取低奖励(困难)回合,确保 Defender 反复复习其最大错误。
    • 回放缓冲区定期刷新,以在攻击策略演变时保持分布新鲜。
  4. 训练循环

    • 使用近端策略优化 (PPO) 同时更新两个策略头,结合 on‑policy 自我对弈数据和 off‑policy 回放经验。
    • 课程调度逐步提升用户查询和 jailbreak 提示的复杂度,模拟真实世界的升级过程。

结果与发现

指标Static‑Red‑Team BaselineSSP (Self‑Play)
拒绝成功率(针对未见的 jailbreak)68 %84 %
误报拒绝率(针对安全查询)12 %9 %
平均奖励(越高越安全)0.420.61
发现的唯一 jailbreak 模式数量2773
  • 对新攻击的鲁棒性: SSP 发现了许多训练集里不存在的 jailbreak 模式,展示了更强的泛化能力。
  • 降低过拟合: 在对一组未见的人为构造的对抗提示进行评估时,Defender 的拒绝行为保持稳定,而静态基线的表现则急剧下降。
  • 效率: 训练在约 20 万次自我对弈后收敛,计算预算与静态数据集微调相当,但安全性提升了 2‑3 倍。

实际影响

  • 持续安全更新: 部署可以在后台运行轻量级的自我对弈循环,自动发现新的攻击向量并在无需人工红队干预的情况下更新拒绝策略。
  • 降低红队成本: 组织可以减少对昂贵外部安全审计的依赖,将资源重新分配到其他风险管理任务。
  • 产品级防护栏: 提供 LLM API 的 SaaS 平台可以嵌入 SSP 训练的模型,以提供更强大、适应性的防护,抵御提示注入、越狱以及规避策略的技巧。
  • 监管合规: 随着 AI 安全法规日益要求对有害输出进行可证明的缓解,自我对弈衍生的安全模型提供了可量化的主动风险降低证据。

限制与未来工作

  • 单模型约束: 使用同一个 LLM 执行两种角色可能会限制攻击策略的多样性,相较于由多种专门模型组成的异构红队。
  • 奖励塑形敏感性: 安全性能依赖于精心调校的奖励权重;若设定错误可能导致过于保守的拒绝或漏检违规行为。
  • 向更大模型的可扩展性: 实验在 7 B 参数模型上进行;将 SSP 扩展到 70 B 规模的 LLM 可能需要更复杂的采样或分布式强化学习技术。
  • 人工监督: 虽然 SSP 减少了人工红队的工作量,但仍需定期人工审查发现的 jailbreak,以捕捉细微的策略违规。

未来的研究方向包括使用异构攻击模型的多智能体自博弈、结合真实用户日志的课程学习,以及引入形式化验证方法以补充经验性的安全提升。

作者

  • Hao Wang
  • Yanting Wang
  • Hao Li
  • Rui Li
  • Lei Sha

论文信息

  • arXiv ID: 2601.10589v1
  • 分类: cs.CR, cs.CL
  • 出版日期: 2026年1月15日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »