[Paper] 分布校准的推理时间计算用于思考 LLM-as-a-Judge

发布: 2个月前 (2025年12月3日 GMT+8 02:46)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.03019v1

Overview

本文研究了在将大型语言模型（LLM）用作配对偏好任务的评审时，如何将噪声较大的单次判断转化为可靠的“评分”。通过在推理时分配更多计算资源（即为每个条目生成多个独立的“思考”样本），并采用一种新的、分布校准的聚合规则，作者显著提升了基于 LLM 的评估的一致性和准确性。

分布校准聚合：提出一种基于 Bradley‑Terry‑Davidson（BTD）模型的方案，联合利用非平局投票的边际（极性）和决定性投票的比例（决定性）。
推理时计算（ITC）预算：系统研究了每个条目需要多少思考‑评分样本，以在延迟与评分质量之间进行权衡。
实证验证：在多个基准评估数据集上展示了持续的 MAE 降低和更高的配对准确率，常常能够匹配或超越单个人类评审员。
对平局的鲁棒性：表明即使在模型输出中有相当比例的“平局”时，BTD 聚合仍能保持良好表现，而多数投票或软自一致性方法会失效。
开源参考实现：提供代码和脚本，以复现实验并将该方法嵌入现有的 LLM‑as‑judge 流程。

思考‑评分生成：对每个条目（例如，对提示的回复），提示 LLM 产生 n 个独立的“思考”样本，每个样本随后给出一个评分（偏好 A、偏好 B 或平局）。样本使用温度 > 0 采样以鼓励多样性。
基于计数的表示：将 n 个输出汇总为三元计数向量 ([c_A, c_B, c_{\text{tie}}])。
Bradley‑Terry‑Davidson 模型：
- 经典的 Bradley‑Terry 模型根据配对胜负计数估计每个选项的潜在“技能”分数。
- Davidson 扩展加入了平局概率的参数，直接捕获决定性。
- 作者将 BTD 模型拟合到观察到的计数向量，得到校准后的 A 相对于 B（或相反）的偏好概率。
推理时计算预算：实验遍历 n（例如 1、3、5、9、15），量化每增加一个样本在评分质量上的边际提升，为实际部署决策提供指导。
基线：与多数投票、软自一致性（对 logits 求平均）以及基于指令的自聚合（提示模型“重新投票”）进行比较。

Metric	Majority Vote	Soft Self‑Consistency	Instruction‑Based	BTD‑Calibrated
MAE (on benchmark X)	0.27	0.24	0.23	0.18
Pairwise Accuracy	71.2 %	73.5 %	74.1 %	78.9 %
Human‑consensus match (avg.)	0.62	0.66	0.68	0.73

更可靠的 LLM‑as‑judge 服务：自动对模型输出进行排序的平台（如代码生成、摘要或内容审核）可以采用适度的 ITC 预算（5–9 样本）和 BTD 聚合器，实现接近人类的一致性而无需巨大的延迟。
成本效益的质量控制：该方法从每个样本中提取最大信息，开发者可以避免过度配置计算资源；递减收益曲线帮助设定明确的 SLA。
噪声领域的鲁棒性：在 LLM 常产生“我不确定”或平局响应的任务（如伦理判断、模糊提示）中，校准方法防止聚合崩溃。
即插即用：提供的实现兼容任何解码器‑only LLM（GPT‑3.5、LLaMA‑2、Claude 等），可通过几行代码包装进现有评估流水线。

Bottom line: 通过合理分配推理时计算并使用分布感知的聚合规则，开发者能够将嘈杂的 LLM 判断转化为可信的评估信号——弥合原始模型输出与可操作质量指标之间的鸿沟。