[Paper] 我们能信任谁?LLM-as-a-jury 用于比较评估
发布: (2026年2月19日 GMT+8 01:04)
7 分钟阅读
原文: arXiv
Source: arXiv - 2602.16610v1
概览
本文研究了一个日益增长的趋势:使用大型语言模型(LLMs)作为自动评审,以比较生成文本的质量(例如摘要、翻译、代码注释)。虽然让单个LLM或对多个LLM进行简单平均来决定哪个输出更好看起来很诱人,但作者们展示了这些评审远非一致。作者提出了 BT‑sigma,一种统计框架,将每个LLM视为具有自身可靠性分数的“陪审员”,使系统能够推断候选文本的排名 以及 每个LLM意见的可信度——无需任何人工标注的校准数据。
关键贡献
- 不一致性的实证证据:展示了 LLM 在不同任务中产生有偏差且相互矛盾的成对比较概率。
- BT‑sigma 模型:在经典 Bradley‑Terry 排名模型基础上扩展了每位评审的 判别器 参数,用以捕捉每个 LLM 的可靠性。
- 联合推断:仅凭成对比较数据即可同时学习项目排名和评审可靠性。
- 性能提升:在多个 NLG 评估基准上显示出相较于朴素平均方法的一致性改进。
- 可解释性:发现学习到的判别器与独立的 LLM 判断一致性度量之间存在强相关性,有效提供了一种无监督的校准工具。
方法论
- 数据收集:作者从多个大型语言模型(例如 GPT‑3.5、Claude、LLaMA)在标准 NLG 评估数据集上生成成对比较日志。每条日志记录评审者更倾向于输出 A 而非 B 的概率。
- 基线:常见做法是对评审者的概率取平均,并根据得到的分数对项目进行排序。
- Bradley‑Terry 基础:经典的 Bradley‑Terry 模型假设 A 胜过 B 的概率取决于每个项目的潜在“技能”分数。
- BT‑sigma 扩展:
-
为每位评审者 i 添加一个 判别器 σᵢ。
-
比较概率变为:
[ P_{i}(A \succ B) = \sigma_i \cdot \frac{e^{\theta_A}}{e^{\theta_A}+e^{\theta_B}} ]
其中 θₐ、θ_b 为项目的潜在质量分数。
-
σᵢ ∈ (0, 1] 用于缩放评审者 i 的影响力:σᵢ 较低时会降低噪声或有偏评审者的权重。
-
- 联合优化:在所有观测到的成对结果上使用最大似然估计,算法迭代更新项目分数 (θ) 和评审者判别器 (σ),直至收敛。
- 评估:将 BT‑sigma 产生的排名与人工判断(黄金标准)进行比较,使用 Kendall’s τ 和成对准确率进行评估。
结果与发现
| 数据集 | 平均基线准确率 | BT‑sigma 准确率 | Δ |
|---|---|---|---|
| SummEval(摘要) | 71.2 % | 76.5 % | +5.3 % |
| MT-Bench(翻译) | 68.9 % | 73.8 % | +4.9 % |
| CodeEval(代码注释) | 73.4 % | 78.1 % | +4.7 % |
- 一致的提升:BT‑sigma 在所有基准测试中均优于简单平均,缩小了与人工评分排名的差距。
- 判别器有效性:σ 值更高的评审员在独立检查时也表现出更高的循环一致性(即 A > B,B > C ⇒ A > C),证实 σ 捕捉到了真实的可靠性。
- 对缺失监督的鲁棒性:该模型不需要任何人工标注的校准数据;它仅从 LLM 判断自身的矛盾模式中学习可靠性。
实际意义
- 更好的自动化评估流水线:构建自然语言生成系统的团队可以用 BT‑sigma 替代脆弱的“多数投票”或原始概率平均,从而获得更贴近人类偏好的排序。
- 动态评审者选择:判别器得分可用于在多模型集成中自动剔除或降低表现不佳的 LLM 权重,从而节省计算预算。
- 无监督校准:在人工评估成本过高的情境下(例如聊天机器人响应的持续集成测试),BT‑sigma 提供一种自校准指标,能够在模型判断变得不稳定时发出警示。
- 跨模型基准测试:研究者可以通过在共享的成对任务集合上查看模型的 σ 分数,将新 LLM 与已有模型进行比较,从而快速获得可靠性指纹。
限制与未来工作
- 独立性假设:BT‑sigma 将每位评审的错误视为相互独立;相关偏差(例如,两个在相同数据上微调的模型)仍可能导致结果偏斜。
- 可扩展性:随着项目和评审数量的增加,联合推断的计算负担会加重;论文提出了随机 EM 变体,但将完整规模部署留给未来研究。
- 领域迁移:实验聚焦于英文 NLG 任务;将该方法应用于多语言或多模态生成仍是一个未解的问题。
- 人机交互扩展:引入少量人工标签以进一步锚定 σ 值可能提升鲁棒性,这是作者计划探索的方向。
作者
- Mengjie Qian
- Guangzhi Sun
- Mark J. F. Gales
- Kate M. Knill
论文信息
- arXiv ID: 2602.16610v1
- 分类: cs.CL, cs.AI, cs.LG
- 发表时间: 2026年2月18日
- PDF: Download PDF