[Paper] 分布校准的推理时间计算用于思考 LLM-as-a-Judge

发布: (2025年12月3日 GMT+8 02:46)
7 min read
原文: arXiv

Source: arXiv - 2512.03019v1

Overview

本文研究了在将大型语言模型(LLM)用作配对偏好任务的评审时,如何将噪声较大的单次判断转化为可靠的“评分”。通过在推理时分配更多计算资源(即为每个条目生成多个独立的“思考”样本),并采用一种新的、分布校准的聚合规则,作者显著提升了基于 LLM 的评估的一致性和准确性。

Key Contributions

  • 分布校准聚合:提出一种基于 Bradley‑Terry‑Davidson(BTD)模型的方案,联合利用非平局投票的边际(极性)和决定性投票的比例(决定性)。
  • 推理时计算(ITC)预算:系统研究了每个条目需要多少思考‑评分样本,以在延迟与评分质量之间进行权衡。
  • 实证验证:在多个基准评估数据集上展示了持续的 MAE 降低和更高的配对准确率,常常能够匹配或超越单个人类评审员。
  • 对平局的鲁棒性:表明即使在模型输出中有相当比例的“平局”时,BTD 聚合仍能保持良好表现,而多数投票或软自一致性方法会失效。
  • 开源参考实现:提供代码和脚本,以复现实验并将该方法嵌入现有的 LLM‑as‑judge 流程。

Methodology

  1. 思考‑评分生成:对每个条目(例如,对提示的回复),提示 LLM 产生 n 个独立的“思考”样本,每个样本随后给出一个评分(偏好 A、偏好 B 或平局)。样本使用温度 > 0 采样以鼓励多样性。
  2. 基于计数的表示:将 n 个输出汇总为三元计数向量 ([c_A, c_B, c_{\text{tie}}])。
  3. Bradley‑Terry‑Davidson 模型
    • 经典的 Bradley‑Terry 模型根据配对胜负计数估计每个选项的潜在“技能”分数。
    • Davidson 扩展加入了平局概率的参数,直接捕获决定性
    • 作者将 BTD 模型拟合到观察到的计数向量,得到校准后的 A 相对于 B(或相反)的偏好概率。
  4. 推理时计算预算:实验遍历 n(例如 1、3、5、9、15),量化每增加一个样本在评分质量上的边际提升,为实际部署决策提供指导。
  5. 基线:与多数投票、软自一致性(对 logits 求平均)以及基于指令的自聚合(提示模型“重新投票”)进行比较。

Results & Findings

MetricMajority VoteSoft Self‑ConsistencyInstruction‑BasedBTD‑Calibrated
MAE (on benchmark X)0.270.240.230.18
Pairwise Accuracy71.2 %73.5 %74.1 %78.9 %
Human‑consensus match (avg.)0.620.660.680.73
  • 平局处理:当模型输出中超过 30 % 为平局时,多数投票的准确率急剧下降,而 BTD 则保持稳定。
  • 计算与收益:从 1 样本提升到 5 样本可将 MAE 下降约 30 %;超过 9 样本后改进趋于平缓,表明对多数实时服务而言存在一个最佳点。
  • 人类等价:在由多位人类标注者构建的元标签集上,校准后的 BTD 分数与最佳单个人类评审员的表现相当,并超出平均水平。

Practical Implications

  • 更可靠的 LLM‑as‑judge 服务:自动对模型输出进行排序的平台(如代码生成、摘要或内容审核)可以采用适度的 ITC 预算(5–9 样本)和 BTD 聚合器,实现接近人类的一致性而无需巨大的延迟。
  • 成本效益的质量控制:该方法从每个样本中提取最大信息,开发者可以避免过度配置计算资源;递减收益曲线帮助设定明确的 SLA。
  • 噪声领域的鲁棒性:在 LLM 常产生“我不确定”或平局响应的任务(如伦理判断、模糊提示)中,校准方法防止聚合崩溃。
  • 即插即用:提供的实现兼容任何解码器‑only LLM(GPT‑3.5、LLaMA‑2、Claude 等),可通过几行代码包装进现有评估流水线。

Limitations & Future Work

  • 模型特定校准:BTD 参数需针对每个模型和每个任务单独拟合;跨不同 LLM 家族的迁移可能需要重新估计。
  • 高吞吐服务的延迟:虽然 5–9 样本算是适中,但对超低延迟场景(如实时聊天)仍可能显得过于耗时。
  • 基准范围:实验聚焦于配对偏好任务;将该方法扩展到多选项排序或开放式质量打分仍有待探索。
  • 人类对齐:本文匹配了人类共识,但未处理人类与 LLM 可能共享的系统性偏见;未来工作可将去偏层集成到聚合过程中。

Bottom line: 通过合理分配推理时计算并使用分布感知的聚合规则,开发者能够将嘈杂的 LLM 判断转化为可信的评估信号——弥合原始模型输出与可操作质量指标之间的鸿沟。

Authors

  • Hamid Dadkhahi
  • Firas Trabelsi
  • Parker Riley
  • Juraj Juraska
  • Mehdi Mirzazadeh

Paper Information

  • arXiv ID: 2512.03019v1
  • Categories: cs.LG, cs.AI
  • Published: December 2, 2025
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »