[Paper] 超越准确性:政策不变性作为 LLM 安全评审员的可靠性测试
发布: (2026年5月7日 GMT+8 20:49)
7 分钟阅读
原文: arXiv
Source: arXiv - 2605.06161v1
概述
大型语言模型(LLMs)正日益被用作“评审”,以评估自主代理的安全性,但我们目前没有系统的方法来验证这些评审是否真的在评判 behaviour,而不是被评估提示的措辞所左右。本文引入了 policy invariance ——一套任何值得信赖的安全评审都应满足的 sanity‑check principles ——并展示了当今的 LLM 评审经常未能通过这些检查。
关键贡献
- Policy‑Invariance Framework – 将三个可检验的原则(rubric‑semantics、rubric‑threshold 和 ambiguity‑aware calibration)形式化,以捕捉裁判的判决是取决于代理的行为还是表面提示的变化。
- Stress‑Test Protocol – 一个可复现的评估套件,能够以经认证等价的方式重写评估策略,并有意调节 rubric 严格度,以探查裁判的稳定性。
- Empirical Diagnosis – 实证表明,最先进的 LLM 裁判在内容保持不变的改写下会出现高达 9.1 % 的安全判决翻转,其中 18–43 % 的翻转发生在明显不含歧义的案例中。
- Policy Invariance Score & Judge Card – 新的度量指标和报告模板,能够揭示传统仅关注准确率的排行榜所看不见的可靠性缺口。
- Open‑Source Release – 代码、数据以及完整的协议均已开源,供社区审计其自身的安全裁判。
方法论
-
定义不变性原则
- Rubric‑Semantics Invariance: 当评估政策在不改变其意义的情况下被改写(例如,同义词替换、被动‑主动语态转换)时,判决应保持不变。
- Rubric‑Threshold Invariance: 判决应对从严格到宽松的评分标准的有意转变保持稳健,除非代理行为真正跨越了新的阈值。
- Ambiguity‑Aware Calibration: 判决的波动应集中在真正模糊的案例上;稳定的案例应保持稳定。
-
创建测试案例
- 收集了来自 ASSEBench 和 R‑Judge 的代理轨迹。
- 使用基于规则的改写和人工验证,生成 certified‑equivalent 的安全评分标准改写。
- 设计了 strict‑to‑lenient 评分标准变体,系统性地放宽安全阈值。
-
运行评审者
- 评估了四种不同的 LLM‑as‑judge 模型(例如 GPT‑4、Claude、Llama‑2‑Chat,以及一个经过微调的安全专用模型)。
- 在原始、改写和转变后的评分标准下记录判决。
-
衡量不变性
- 计算 Policy Invariance Score (PIS):在改写之间保持不变的判决比例,按基线抖动进行归一化。
- 生成 Judge Card,总结每个模型的 PIS、校准曲线和失效模式。
结果与发现
| Judge (模型) | 基准准确率* | 政策不变性得分 | 重写导致的判决翻转 | 对明确案例的翻转 |
|---|---|---|---|---|
| GPT‑4 | 87 % | 0.71 | 6.3 % | 22 % |
| Claude | 84 % | 0.68 | 7.1 % | 27 % |
| Llama‑2‑Chat | 80 % | 0.55 | 9.1 % | 43 % |
| 微调安全‑LLM | 82 % | 0.62 | 8.4 % | 31 % |
*准确率是相对于人工标注的安全标签进行测量的。
- 政策不变性差异显著,即使在原始准确率相近的模型之间也会出现巨大差异。
- 保持内容不变的重写会导致的判决变化与真正的评分标准严格度变化相当,这表明评审对表面措辞过于敏感。
- 考虑歧义的校准显示,许多翻转发生在人工一致标记为安全或不安全的案例上,暴露出隐藏的可靠性问题。
- Judge Card 能够一目了然地展示这些差距,而传统排行榜往往忽视这些信息。
实际意义
- 基准设计者:在采用 LLM 判官作为真实标准之前,运行政策不变性压力测试,以确保评估者没有“操纵”提示。
- 安全关键部署:构建自主代理的团队(例如自动驾驶机器人、金融交易助理)应将 政策不变性得分 纳入评估流程,以避免错误的安全保证。
- LLM 提供商:研究结果为微调提供了具体目标:提升对改写和评分标准变化的鲁棒性,而不仅仅是原始分类准确率。
- 工具:已发布的代码可集成到 CI/CD 流水线中,以在模型演进时持续监控判官的可靠性。
- 监管审计:政策不变性提供了可衡量、可解释的指标,监管机构可将其作为 AI 安全认证的要求。
限制与未来工作
- Rubrics 范围:本研究聚焦于当前代理评估基准中使用的安全 Rubrics;其他领域(例如偏见、事实性)可能需要定制的 invariance 定义。
- 人工验证成本:认证等价的改写依赖人工验证,在大规模时可能成本高昂。自动化的语义等价检查是一个有前景的方向。
- 模型多样性:仅检查了四个 LLM 判官;更广泛的覆盖(包括不同架构的开源模型)将提升通用性。
- 动态代理:当前协议评估的是静态轨迹;将其扩展到交互式、实时代理可能会发现额外的失效模式。
- 校准技术:未来工作可以探索直接优化 policy invariance 的训练目标,可能会降低观察到的 jitter。
作者
- Shihao Weng
- Yang Feng
- Xiaofei Xie
论文信息
- arXiv ID: 2605.06161v1
- 类别: cs.AI, cs.SE
- 发表时间: 2026 年 5 月 7 日
- PDF: 下载 PDF