[Paper] 分布校准的推理时间计算用于思考 LLM-as-a-Judge
发布: (2025年12月3日 GMT+8 02:46)
7 min read
原文: arXiv
Source: arXiv - 2512.03019v1
Overview
本文研究了在将大型语言模型(LLM)用作配对偏好任务的评审时,如何将噪声较大的单次判断转化为可靠的“评分”。通过在推理时分配更多计算资源(即为每个条目生成多个独立的“思考”样本),并采用一种新的、分布校准的聚合规则,作者显著提升了基于 LLM 的评估的一致性和准确性。
Key Contributions
- 分布校准聚合:提出一种基于 Bradley‑Terry‑Davidson(BTD)模型的方案,联合利用非平局投票的边际(极性)和决定性投票的比例(决定性)。
- 推理时计算(ITC)预算:系统研究了每个条目需要多少思考‑评分样本,以在延迟与评分质量之间进行权衡。
- 实证验证:在多个基准评估数据集上展示了持续的 MAE 降低和更高的配对准确率,常常能够匹配或超越单个人类评审员。
- 对平局的鲁棒性:表明即使在模型输出中有相当比例的“平局”时,BTD 聚合仍能保持良好表现,而多数投票或软自一致性方法会失效。
- 开源参考实现:提供代码和脚本,以复现实验并将该方法嵌入现有的 LLM‑as‑judge 流程。
Methodology
- 思考‑评分生成:对每个条目(例如,对提示的回复),提示 LLM 产生 n 个独立的“思考”样本,每个样本随后给出一个评分(偏好 A、偏好 B 或平局)。样本使用温度 > 0 采样以鼓励多样性。
- 基于计数的表示:将 n 个输出汇总为三元计数向量 ([c_A, c_B, c_{\text{tie}}])。
- Bradley‑Terry‑Davidson 模型:
- 经典的 Bradley‑Terry 模型根据配对胜负计数估计每个选项的潜在“技能”分数。
- Davidson 扩展加入了平局概率的参数,直接捕获决定性。
- 作者将 BTD 模型拟合到观察到的计数向量,得到校准后的 A 相对于 B(或相反)的偏好概率。
- 推理时计算预算:实验遍历 n(例如 1、3、5、9、15),量化每增加一个样本在评分质量上的边际提升,为实际部署决策提供指导。
- 基线:与多数投票、软自一致性(对 logits 求平均)以及基于指令的自聚合(提示模型“重新投票”)进行比较。
Results & Findings
| Metric | Majority Vote | Soft Self‑Consistency | Instruction‑Based | BTD‑Calibrated |
|---|---|---|---|---|
| MAE (on benchmark X) | 0.27 | 0.24 | 0.23 | 0.18 |
| Pairwise Accuracy | 71.2 % | 73.5 % | 74.1 % | 78.9 % |
| Human‑consensus match (avg.) | 0.62 | 0.66 | 0.68 | 0.73 |
- 平局处理:当模型输出中超过 30 % 为平局时,多数投票的准确率急剧下降,而 BTD 则保持稳定。
- 计算与收益:从 1 样本提升到 5 样本可将 MAE 下降约 30 %;超过 9 样本后改进趋于平缓,表明对多数实时服务而言存在一个最佳点。
- 人类等价:在由多位人类标注者构建的元标签集上,校准后的 BTD 分数与最佳单个人类评审员的表现相当,并超出平均水平。
Practical Implications
- 更可靠的 LLM‑as‑judge 服务:自动对模型输出进行排序的平台(如代码生成、摘要或内容审核)可以采用适度的 ITC 预算(5–9 样本)和 BTD 聚合器,实现接近人类的一致性而无需巨大的延迟。
- 成本效益的质量控制:该方法从每个样本中提取最大信息,开发者可以避免过度配置计算资源;递减收益曲线帮助设定明确的 SLA。
- 噪声领域的鲁棒性:在 LLM 常产生“我不确定”或平局响应的任务(如伦理判断、模糊提示)中,校准方法防止聚合崩溃。
- 即插即用:提供的实现兼容任何解码器‑only LLM(GPT‑3.5、LLaMA‑2、Claude 等),可通过几行代码包装进现有评估流水线。
Limitations & Future Work
- 模型特定校准:BTD 参数需针对每个模型和每个任务单独拟合;跨不同 LLM 家族的迁移可能需要重新估计。
- 高吞吐服务的延迟:虽然 5–9 样本算是适中,但对超低延迟场景(如实时聊天)仍可能显得过于耗时。
- 基准范围:实验聚焦于配对偏好任务;将该方法扩展到多选项排序或开放式质量打分仍有待探索。
- 人类对齐:本文匹配了人类共识,但未处理人类与 LLM 可能共享的系统性偏见;未来工作可将去偏层集成到聚合过程中。
Bottom line: 通过合理分配推理时计算并使用分布感知的聚合规则,开发者能够将嘈杂的 LLM 判断转化为可信的评估信号——弥合原始模型输出与可操作质量指标之间的鸿沟。
Authors
- Hamid Dadkhahi
- Firas Trabelsi
- Parker Riley
- Juraj Juraska
- Mehdi Mirzazadeh
Paper Information
- arXiv ID: 2512.03019v1
- Categories: cs.LG, cs.AI
- Published: December 2, 2025
- PDF: Download PDF