[Paper] 学会保持安全：在微调过程中针对安全退化的自适应正则化

发布: 3天前 (2026年2月20日 GMT+8 00:59)

8 分钟阅读

原文: arXiv

Source: arXiv - 2602.17546v1

请提供您希望翻译的正文内容，我将按照要求进行简体中文翻译并保留原有的格式、Markdown 语法以及技术术语。

概述

对大型语言模型（LLMs）进行微调可能会无意中削弱原始指令遵循版本中嵌入的安全防护栏。Goel 等人提出了一种 自适应正则化 框架，该框架在微调过程中持续监控模型的“安全风险”，并有选择地将风险较高的更新拉回到可信的安全参考策略上。其结果是一种简单、无需推理的技术，即使在模型被适配到新任务或面对对抗性提示时，也能保持模型既有帮助性且安全。

关键贡献

风险感知正则化: 引入一个动态损失项，根据实时估计的安全风险来收紧或放宽正则化。
两种风险估计器:
1. Safety‑Critic judge – 一个黑箱“危害评分”模型，对每个训练批次进行评分。
2. Activation‑based predictor – 一个轻量级分类器，读取中间激活以推断有害意图。
跨模型族的实证验证（例如 LLaMA、Falcon）和攻击场景，显示在不影响下游任务性能的情况下，攻击成功率持续下降。
零推理开销: 安全防护仅在训练期间应用，部署后的模型仍以常规速度运行。
证明有害意图可从生成前的激活中预测, 为低成本安全监控开辟新途径。

方法论

基线微调 – 在下游数据集上使用标准监督损失更新目标模型。
每批次安全风险估计
- 基于评审：一个独立的 “Safety Critic” 模型评估该批次并返回一个标量危害分数（分数高 = 风险大）。
- 基于激活：一个小型前馈分类器事先在标记好的激活集合（安全 vs. 不安全）上进行训练，然后在运行时预测风险概率。
自适应正则化项
- 如果风险分数超过预定义阈值，更新将被 正则化：KL 散度（或 L2）惩罚迫使微调模型的输出分布保持接近冻结的安全参考模型。
- 低风险批次仅使用普通损失进行训练，使模型在安全不是问题的情况下能够充分适应。
训练循环 – 在每一步调用风险估计器和自适应正则化器；不会向最终模型添加额外参数。

整体批次 b 的损失为：

[ \mathcal{L}b = \mathcal{L}{\text{task}}(b) + \lambda(b),\mathcal{L}_{\text{reg}}(b) ]

其中 (\lambda(b)) 是随估计风险增长的标量。

结果与发现

设置	标准微调攻击成功率	自适应正则（Judge）	自适应正则（Activations）
LLaMA‑7B，越狱提示	42 %	19 %	21 %
Falcon‑40B，有害续写	35 %	16 %	18 %
下游 QA（SQuAD）准确率	84 %	83 %	84 %
摘要 ROUGE‑L	46.2	45.9	46.0

关键要点

两种风险估计器将攻击成功率降低约一半，同时保持任务性能在基线的 1 % 以内。
基于激活的预测器在几乎微小的额外训练成本（≈ 0.5 % 的总 FLOPs）下实现了相当的安全提升。
推理时没有延迟惩罚，因为安全评审器仅在训练阶段使用。

消融实验表明 (i) 自适应调度（风险依赖的 λ）优于静态、统一强度的正则化，且 (ii) 安全评审器的高召回特性对于捕捉细微的有害意图至关重要。

Practical Implications

更安全的产品发布： 公司可以在特定领域数据（例如医疗记录、金融）上微调专有的大语言模型，而不必担心模型会产生不安全的幻觉建议。
API 的对抗鲁棒性： 服务提供商可以将自适应正则化器集成到微调流水线中，为防止试图绕过内容过滤器的越狱攻击提供额外防线。
低成本安全监控： 基于激活的风险预测器可以针对每个模型族训练一次，并在多个微调任务中重复使用，提供一种廉价的“安全温控器”，在与主训练循环相同的硬件上运行。
合规监管： 在模型更新期间保持记录的安全风险信号，有助于满足新兴的 AI 治理要求，这些要求要求对安全相关的变更进行可追溯性。

总体而言，该技术使开发者能够 保持微调带来的效用提升，同时 自动限制可能降低安全性的更新，且无需改变模型的运行时占用。

Source: …

限制与未来工作

风险评估器质量至关重要： 安全批评者的效果取决于其训练数据；如果出现批评者从未见过的全新有害模式，风险可能被低估。
阈值调节： 选择风险阈值和正则化强度仍需针对每个模型/任务进行一定的经验调优，这一点可在未来工作中实现自动化。
安全定义的范围： 本文聚焦于通过现有的毒性/越狱基准捕获的“有害意图”；更广泛的公平性、偏见或错误信息等概念并未直接涉及。
对超大模型的可扩展性： 虽然该方法不增加推理成本，但安全批评者（或激活分类器）的额外前向传播会适度提升训练计算量；在数十亿参数模型上扩展可能需要更高效的风险评估器。

未来的研究方向包括将框架扩展到多目标安全（例如，偏见 + 毒性），探索不依赖外部评审者的自监督风险信号，以及将自适应正则化器集成到持续学习设置中，使模型在多次微调循环中持续演进。

作者

Jyotin Goel
Souvik Maji
Pratik Mazumder

论文信息

arXiv ID: 2602.17546v1
分类: cs.CL, cs.LG
发表时间: 2026年2月19日
PDF: 下载 PDF

[Paper] 学会保持安全：在微调过程中针对安全退化的自适应正则化

概述

关键贡献

方法论

结果与发现

Practical Implications

限制与未来工作

作者

论文信息

相关文章

[论文] 针对扩散语言模型的 Sink-Aware 剪枝

[Paper] 通过细粒度细节定位推动黑盒 LVLM 攻击的前沿

[论文] 级联等价假设：何时语音 LLM 的行为类似于 ASR→LLM 管道？

[Paper] KLong：训练 LLM 代理用于极长时程任务