[Paper] 学会保持安全:在微调过程中针对安全退化的自适应正则化
Source: arXiv - 2602.17546v1
请提供您希望翻译的正文内容,我将按照要求进行简体中文翻译并保留原有的格式、Markdown 语法以及技术术语。
概述
对大型语言模型(LLMs)进行微调可能会无意中削弱原始指令遵循版本中嵌入的安全防护栏。Goel 等人提出了一种 自适应正则化 框架,该框架在微调过程中持续监控模型的“安全风险”,并有选择地将风险较高的更新拉回到可信的安全参考策略上。其结果是一种简单、无需推理的技术,即使在模型被适配到新任务或面对对抗性提示时,也能保持模型既有帮助性 且 安全。
关键贡献
- 风险感知正则化: 引入一个动态损失项,根据实时估计的安全风险来收紧或放宽正则化。
- 两种风险估计器:
- Safety‑Critic judge – 一个黑箱“危害评分”模型,对每个训练批次进行评分。
- Activation‑based predictor – 一个轻量级分类器,读取中间激活以推断有害意图。
- 跨模型族的实证验证(例如 LLaMA、Falcon)和攻击场景,显示在不影响下游任务性能的情况下,攻击成功率持续下降。
- 零推理开销: 安全防护仅在训练期间应用,部署后的模型仍以常规速度运行。
- 证明有害意图可从生成前的激活中预测, 为低成本安全监控开辟新途径。
方法论
- 基线微调 – 在下游数据集上使用标准监督损失更新目标模型。
- 每批次安全风险估计
- 基于评审:一个独立的 “Safety Critic” 模型评估该批次并返回一个标量危害分数(分数高 = 风险大)。
- 基于激活:一个小型前馈分类器事先在标记好的激活集合(安全 vs. 不安全)上进行训练,然后在运行时预测风险概率。
- 自适应正则化项
- 如果风险分数超过预定义阈值,更新将被 正则化:KL 散度(或 L2)惩罚迫使微调模型的输出分布保持接近冻结的安全参考模型。
- 低风险批次仅使用普通损失进行训练,使模型在安全不是问题的情况下能够充分适应。
- 训练循环 – 在每一步调用风险估计器和自适应正则化器;不会向最终模型添加额外参数。
整体批次 b 的损失为:
[ \mathcal{L}b = \mathcal{L}{\text{task}}(b) + \lambda(b),\mathcal{L}_{\text{reg}}(b) ]
其中 (\lambda(b)) 是随估计风险增长的标量。
结果与发现
| 设置 | 标准微调攻击成功率 | 自适应正则(Judge) | 自适应正则(Activations) |
|---|---|---|---|
| LLaMA‑7B,越狱提示 | 42 % | 19 % | 21 % |
| Falcon‑40B,有害续写 | 35 % | 16 % | 18 % |
| 下游 QA(SQuAD)准确率 | 84 % | 83 % | 84 % |
| 摘要 ROUGE‑L | 46.2 | 45.9 | 46.0 |
关键要点
- 两种风险估计器将攻击成功率降低约 一半,同时保持任务性能在基线的 1 % 以内。
- 基于激活的预测器在几乎 微小 的额外训练成本(≈ 0.5 % 的总 FLOPs)下实现了相当的安全提升。
- 推理时没有延迟惩罚,因为安全评审器仅在训练阶段使用。
消融实验表明 (i) 自适应调度(风险依赖的 λ)优于静态、统一强度的正则化,且 (ii) 安全评审器的高召回特性对于捕捉细微的有害意图至关重要。
Practical Implications
- 更安全的产品发布: 公司可以在特定领域数据(例如医疗记录、金融)上微调专有的大语言模型,而不必担心模型会产生不安全的幻觉建议。
- API 的对抗鲁棒性: 服务提供商可以将自适应正则化器集成到微调流水线中,为防止试图绕过内容过滤器的越狱攻击提供额外防线。
- 低成本安全监控: 基于激活的风险预测器可以针对每个模型族训练一次,并在多个微调任务中重复使用,提供一种廉价的“安全温控器”,在与主训练循环相同的硬件上运行。
- 合规监管: 在模型更新期间保持记录的安全风险信号,有助于满足新兴的 AI 治理要求,这些要求要求对安全相关的变更进行可追溯性。
总体而言,该技术使开发者能够 保持微调带来的效用提升,同时 自动限制可能降低安全性的更新,且无需改变模型的运行时占用。
Source: …
限制与未来工作
- 风险评估器质量至关重要: 安全批评者的效果取决于其训练数据;如果出现批评者从未见过的全新有害模式,风险可能被低估。
- 阈值调节: 选择风险阈值和正则化强度仍需针对每个模型/任务进行一定的经验调优,这一点可在未来工作中实现自动化。
- 安全定义的范围: 本文聚焦于通过现有的毒性/越狱基准捕获的“有害意图”;更广泛的公平性、偏见或错误信息等概念并未直接涉及。
- 对超大模型的可扩展性: 虽然该方法不增加推理成本,但安全批评者(或激活分类器)的额外前向传播会适度提升训练计算量;在数十亿参数模型上扩展可能需要更高效的风险评估器。
未来的研究方向包括将框架扩展到多目标安全(例如,偏见 + 毒性),探索不依赖外部评审者的自监督风险信号,以及将自适应正则化器集成到持续学习设置中,使模型在多次微调循环中持续演进。
作者
- Jyotin Goel
- Souvik Maji
- Pratik Mazumder
论文信息
- arXiv ID: 2602.17546v1
- 分类: cs.CL, cs.LG
- 发表时间: 2026年2月19日
- PDF: 下载 PDF