[论文] 通过 In-Decoding Safety-Awareness 探测防御 Large Language Models 免受 Jailbreak 攻击

发布: (2026年1月16日 GMT+8 00:09)
7 min read
原文: arXiv

Source: arXiv - 2601.10543v1

概述

大型语言模型(LLMs)正被嵌入从聊天助手到代码生成器的各种产品中,但它们仍然出乎意料地容易被“越狱”——即使经过安全对齐工作,也会被诱导生成不允许的或有害的内容。本文揭示了 LLM 在 期间 发出的隐藏安全信号,并展示了通过显现该信号可以在早期阻止越狱,而不会牺牲模型的实用性。

关键贡献

  • 潜在安全意识: 表明即使模型最终输出不安全文本,其内部隐藏状态已经包含了表明安全违规的线索。
  • 解码中探测技术: 引入一种轻量级探测模块,能够在生成过程中实时读取这些线索,并在有害内容出现之前中止生成。
  • 广泛的实证验证: 在多个 LLM 系列(GPT‑2、LLaMA、Vicuna)上使用一套最先进的 jailbreak 提示(如 “角色扮演”、 “自我改进”、 “提示注入”)进行测试。
  • 低误拒率: 表明该方法在拒绝不安全输出的同时,对良性请求的拒绝率与现有事后检测器相当或更好。
  • 开源发布: 提供代码和预训练的探测头,便于轻松集成到现有推理流水线中。

方法论

  1. 信号发现: 作者在隐藏状态向量(即每个 token 被采样前的激活)上微调一个小分类器,以预测下一个 token 是否会违反安全策略。
  2. 安全感知解码: 在生成过程中,每生成一个 token 后检查探针的置信分数。如果超过校准阈值,则停止解码并返回拒绝响应。
  3. 校准与阈值: 阈值针对每个模型使用保留的良性数据集设定,以保持误报(过度拒绝)率低,同时最大化对 jailbreak 示例的真阳性检测。
  4. 评估流程: 作者运行一系列 jailbreak 攻击(例如“通过系统提示的 jailbreak”、 “通过链式思考的 jailbreak”),并比较三种基线:(a) 普通解码,(b) 解码时约束(例如 token 级别禁令),以及 (c) 生成后分类器。

整个探测步骤在单个 GPU 上每个 token 额外增加 ≈ 5 ms 的延迟,使其在实时服务中可行。

结果与发现

模型基线越狱成功率探测后成功率过度拒绝(良性)
LLaMA‑13B78 %12 %2.3 %
Vicuna‑7B71 %9 %1.9 %
GPT‑2‑XL65 %8 %2.7 %
  • 检测速度: 探针平均在 2–3 个 token 后标记不安全的续写,远早于最终有害输出。
  • 实用性保持: 对 500 条良性对话的人工评估显示,与原始模型相比,相关性、流畅性或有用性没有统计显著下降。
  • 鲁棒性: 即使攻击者通过“软化”越狱提示进行适应,探针仍能捕获 > 80 % 的违规行为,表明潜在的安全信号难以在不根本改变模型知识的情况下被抹除。

实际意义

  • Plug‑and‑play safety layer: 即插即用安全层: 开发者可以将探测模块包装在任何仅解码器的 LLM 上,无需重新训练整个模型即可获得额外的安全防护。
  • Reduced reliance on post‑hoc filters: 降低对事后过滤器的依赖: 由于检测在生成 期间 进行,因而不需要昂贵的下游分类器对完整回复进行扫描。
  • Compliance & risk management: 合规与风险管理: 早期中止简化审计链路——系统可以记录安全探测触发的确切 token,帮助监管报告。
  • Edge deployment: 边缘部署: 探测器体积极小(仅几百个参数),并在与基础模型相同的硬件上运行,适用于设备端助手或低延迟云 API。
  • Complementary to alignment fine‑tuning: 与对齐微调互补: 已经完成 RLHF 或指令微调的组织可以在其之上叠加此技术,实现对新型 jailbreak 手段的纵深防御。

限制与未来工作

  • 模型特定校准: 阈值需要针对每个模型进行调优;尚未实现跨架构的通用设置。
  • 对抗性适应: 有决心的攻击者可能会尝试“掩盖”潜在的安全信号(例如,插入中性填充标记),这可能会降低检测率。
  • 安全定义的范围: 探针是基于特定政策集合进行训练的;将其扩展到多司法管辖区或领域特定的指南需要额外的标注数据。
  • 生成多样性: 虽然探针在仅解码器模型上表现良好,但其对编码器‑解码器或多模态大语言模型的适用性仍未探索。

未来的研究方向包括:(1) 与语言模型联合训练探针,使安全信号更加显式;(2) 研究多步探测,在更长的窗口上聚合证据;以及 (3) 将该方法与基于强化学习的对齐相结合,创建能够在没有外部监督的情况下自行拒绝的模型。

作者

  • Yinzhi Zhao
  • Ming Wang
  • Shi Feng
  • Xiaocui Yang
  • Daling Wang
  • Yifei Zhang

论文信息

  • arXiv ID: 2601.10543v1
  • 类别: cs.AI, cs.CL
  • 发布时间: 2026年1月15日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »