[Paper] 我们能信任谁？LLM-as-a-jury 用于比较评估

发布: 3天前 (2026年2月19日 GMT+8 01:04)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.16610v1

概览

本文研究了一个日益增长的趋势：使用大型语言模型（LLMs）作为自动评审，以比较生成文本的质量（例如摘要、翻译、代码注释）。虽然让单个LLM或对多个LLM进行简单平均来决定哪个输出更好看起来很诱人，但作者们展示了这些评审远非一致。作者提出了 BT‑sigma，一种统计框架，将每个LLM视为具有自身可靠性分数的“陪审员”，使系统能够推断候选文本的排名以及每个LLM意见的可信度——无需任何人工标注的校准数据。

关键贡献

不一致性的实证证据：展示了 LLM 在不同任务中产生有偏差且相互矛盾的成对比较概率。
BT‑sigma 模型：在经典 Bradley‑Terry 排名模型基础上扩展了每位评审的 判别器 参数，用以捕捉每个 LLM 的可靠性。
联合推断：仅凭成对比较数据即可同时学习项目排名和评审可靠性。
性能提升：在多个 NLG 评估基准上显示出相较于朴素平均方法的一致性改进。
可解释性：发现学习到的判别器与独立的 LLM 判断一致性度量之间存在强相关性，有效提供了一种无监督的校准工具。

方法论

数据收集：作者从多个大型语言模型（例如 GPT‑3.5、Claude、LLaMA）在标准 NLG 评估数据集上生成成对比较日志。每条日志记录评审者更倾向于输出 A 而非 B 的概率。
基线：常见做法是对评审者的概率取平均，并根据得到的分数对项目进行排序。
Bradley‑Terry 基础：经典的 Bradley‑Terry 模型假设 A 胜过 B 的概率取决于每个项目的潜在“技能”分数。
BT‑sigma 扩展：
- 为每位评审者 i 添加一个 判别器 σᵢ。
- 比较概率变为：
  
  [ P_{i}(A \succ B) = \sigma_i \cdot \frac{e^{\theta_A}}{e^{\theta_A}+e^{\theta_B}} ]
  
  其中 θₐ、θ_b 为项目的潜在质量分数。
- σᵢ ∈ (0, 1] 用于缩放评审者 i 的影响力：σᵢ 较低时会降低噪声或有偏评审者的权重。
联合优化：在所有观测到的成对结果上使用最大似然估计，算法迭代更新项目分数 (θ) 和评审者判别器 (σ)，直至收敛。
评估：将 BT‑sigma 产生的排名与人工判断（黄金标准）进行比较，使用 Kendall’s τ 和成对准确率进行评估。

结果与发现

数据集	平均基线准确率	BT‑sigma 准确率	Δ
SummEval（摘要）	71.2 %	76.5 %	+5.3 %
MT-Bench（翻译）	68.9 %	73.8 %	+4.9 %
CodeEval（代码注释）	73.4 %	78.1 %	+4.7 %

一致的提升：BT‑sigma 在所有基准测试中均优于简单平均，缩小了与人工评分排名的差距。
判别器有效性：σ 值更高的评审员在独立检查时也表现出更高的循环一致性（即 A > B，B > C ⇒ A > C），证实 σ 捕捉到了真实的可靠性。
对缺失监督的鲁棒性：该模型不需要任何人工标注的校准数据；它仅从 LLM 判断自身的矛盾模式中学习可靠性。

实际意义

更好的自动化评估流水线：构建自然语言生成系统的团队可以用 BT‑sigma 替代脆弱的“多数投票”或原始概率平均，从而获得更贴近人类偏好的排序。
动态评审者选择：判别器得分可用于在多模型集成中自动剔除或降低表现不佳的 LLM 权重，从而节省计算预算。
无监督校准：在人工评估成本过高的情境下（例如聊天机器人响应的持续集成测试），BT‑sigma 提供一种自校准指标，能够在模型判断变得不稳定时发出警示。
跨模型基准测试：研究者可以通过在共享的成对任务集合上查看模型的 σ 分数，将新 LLM 与已有模型进行比较，从而快速获得可靠性指纹。

限制与未来工作

独立性假设：BT‑sigma 将每位评审的错误视为相互独立；相关偏差（例如，两个在相同数据上微调的模型）仍可能导致结果偏斜。
可扩展性：随着项目和评审数量的增加，联合推断的计算负担会加重；论文提出了随机 EM 变体，但将完整规模部署留给未来研究。
领域迁移：实验聚焦于英文 NLG 任务；将该方法应用于多语言或多模态生成仍是一个未解的问题。
人机交互扩展：引入少量人工标签以进一步锚定 σ 值可能提升鲁棒性，这是作者计划探索的方向。

作者

Mengjie Qian
Guangzhi Sun
Mark J. F. Gales
Kate M. Knill

论文信息

arXiv ID: 2602.16610v1
分类: cs.CL, cs.AI, cs.LG
发表时间: 2026年2月18日
PDF: Download PDF

[Paper] 我们能信任谁？LLM-as-a-jury 用于比较评估

概览

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[论文] 针对扩散语言模型的 Sink-Aware 剪枝

[Paper] 通过细粒度细节定位推动黑盒 LVLM 攻击的前沿

[论文] 级联等价假设：何时语音 LLM 的行为类似于 ASR→LLM 管道？

[Paper] KLong：训练 LLM 代理用于极长时程任务