[Paper] 我们能信任谁?LLM-as-a-jury 用于比较评估

发布: (2026年2月19日 GMT+8 01:04)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.16610v1

概览

本文研究了一个日益增长的趋势:使用大型语言模型(LLMs)作为自动评审,以比较生成文本的质量(例如摘要、翻译、代码注释)。虽然让单个LLM或对多个LLM进行简单平均来决定哪个输出更好看起来很诱人,但作者们展示了这些评审远非一致。作者提出了 BT‑sigma,一种统计框架,将每个LLM视为具有自身可靠性分数的“陪审员”,使系统能够推断候选文本的排名 以及 每个LLM意见的可信度——无需任何人工标注的校准数据。

关键贡献

  • 不一致性的实证证据:展示了 LLM 在不同任务中产生有偏差且相互矛盾的成对比较概率。
  • BT‑sigma 模型:在经典 Bradley‑Terry 排名模型基础上扩展了每位评审的 判别器 参数,用以捕捉每个 LLM 的可靠性。
  • 联合推断:仅凭成对比较数据即可同时学习项目排名和评审可靠性。
  • 性能提升:在多个 NLG 评估基准上显示出相较于朴素平均方法的一致性改进。
  • 可解释性:发现学习到的判别器与独立的 LLM 判断一致性度量之间存在强相关性,有效提供了一种无监督的校准工具。

方法论

  1. 数据收集:作者从多个大型语言模型(例如 GPT‑3.5、Claude、LLaMA)在标准 NLG 评估数据集上生成成对比较日志。每条日志记录评审者更倾向于输出 A 而非 B 的概率。
  2. 基线:常见做法是对评审者的概率取平均,并根据得到的分数对项目进行排序。
  3. Bradley‑Terry 基础:经典的 Bradley‑Terry 模型假设 A 胜过 B 的概率取决于每个项目的潜在“技能”分数。
  4. BT‑sigma 扩展
    • 为每位评审者 i 添加一个 判别器 σᵢ。

    • 比较概率变为:

      [ P_{i}(A \succ B) = \sigma_i \cdot \frac{e^{\theta_A}}{e^{\theta_A}+e^{\theta_B}} ]

      其中 θₐ、θ_b 为项目的潜在质量分数。

    • σᵢ ∈ (0, 1] 用于缩放评审者 i 的影响力:σᵢ 较低时会降低噪声或有偏评审者的权重。

  5. 联合优化:在所有观测到的成对结果上使用最大似然估计,算法迭代更新项目分数 (θ) 和评审者判别器 (σ),直至收敛。
  6. 评估:将 BT‑sigma 产生的排名与人工判断(黄金标准)进行比较,使用 Kendall’s τ 和成对准确率进行评估。

结果与发现

数据集平均基线准确率BT‑sigma 准确率Δ
SummEval(摘要)71.2 %76.5 %+5.3 %
MT-Bench(翻译)68.9 %73.8 %+4.9 %
CodeEval(代码注释)73.4 %78.1 %+4.7 %
  • 一致的提升:BT‑sigma 在所有基准测试中均优于简单平均,缩小了与人工评分排名的差距。
  • 判别器有效性:σ 值更高的评审员在独立检查时也表现出更高的循环一致性(即 A > B,B > C ⇒ A > C),证实 σ 捕捉到了真实的可靠性。
  • 对缺失监督的鲁棒性:该模型不需要任何人工标注的校准数据;它仅从 LLM 判断自身的矛盾模式中学习可靠性。

实际意义

  • 更好的自动化评估流水线:构建自然语言生成系统的团队可以用 BT‑sigma 替代脆弱的“多数投票”或原始概率平均,从而获得更贴近人类偏好的排序。
  • 动态评审者选择:判别器得分可用于在多模型集成中自动剔除或降低表现不佳的 LLM 权重,从而节省计算预算。
  • 无监督校准:在人工评估成本过高的情境下(例如聊天机器人响应的持续集成测试),BT‑sigma 提供一种自校准指标,能够在模型判断变得不稳定时发出警示。
  • 跨模型基准测试:研究者可以通过在共享的成对任务集合上查看模型的 σ 分数,将新 LLM 与已有模型进行比较,从而快速获得可靠性指纹。

限制与未来工作

  • 独立性假设:BT‑sigma 将每位评审的错误视为相互独立;相关偏差(例如,两个在相同数据上微调的模型)仍可能导致结果偏斜。
  • 可扩展性:随着项目和评审数量的增加,联合推断的计算负担会加重;论文提出了随机 EM 变体,但将完整规模部署留给未来研究。
  • 领域迁移:实验聚焦于英文 NLG 任务;将该方法应用于多语言或多模态生成仍是一个未解的问题。
  • 人机交互扩展:引入少量人工标签以进一步锚定 σ 值可能提升鲁棒性,这是作者计划探索的方向。

作者

  • Mengjie Qian
  • Guangzhi Sun
  • Mark J. F. Gales
  • Kate M. Knill

论文信息

  • arXiv ID: 2602.16610v1
  • 分类: cs.CL, cs.AI, cs.LG
  • 发表时间: 2026年2月18日
  • PDF: Download PDF
0 浏览
Back to Blog

相关文章

阅读更多 »