[Paper] SCOPE：选择性共形优化成对 LLM 评判

发布: 3天前 (2026年2月14日 GMT+8 01:10)

8 分钟阅读

原文: arXiv

Source: arXiv - 2602.13110v1

概述

大型语言模型（LLM）正日益被用作成对比较的自动评判器——决定两个模型输出中哪一个更好——从而帮助开发者避免昂贵的人为标注。论文 “SCOPE: Selective Conformal Optimized Pairwise LLM Judging” 提出了一种基于统计的框架，使得 LLM 评判者在不确定时可以 选择退出，同时保证其做出的判断错误率低于用户设定的阈值。

关键贡献

SCOPE 框架：一种选择性预测系统，将共形校准与用户指定的风险水平 α 相耦合，确保在被接受的判断中错误判断的比例永不超过 α（具有有限样本保证）。
双向偏好熵 (BPE)：一种新颖的不确定性度量，对 LLM 进行两次查询——一次将每个候选放在“第一”位置——汇总隐含的偏好概率，并将其转换为基于熵的得分，该得分对答案顺序保持不变。
实证验证：在三个广泛使用的评估套件（MT‑Bench、RewardBench、Chatbot Arena）上进行的大量实验表明，BPE 提供的选择信号比原始置信度分数更强，使 SCOPE 能在保持高覆盖率（最高保留 98 % 判断）的同时满足目标风险。
跨模型规模的可扩展性：从 7 B 参数模型到 32 B 参数模型均展示出一致的性能，凸显该方法对小型和大型 LLM 判官均有效。

Methodology

Pairwise Judging as a Binary Decision
- 对于每一对 (A, B)，LLM 输出一个偏好概率 p，表示 A 优于 B 的可能性。
Bidirectional Querying
- 同一对会被送入 LLM 两次，交换顺序（A‑first，B‑first）。这会得到两个概率 p₁ 和 p₂，随后合并为一个 symmetrized 偏好分布。
Entropy‑Based Uncertainty (BPE)
- 将对称化后的分布转换为熵值：熵越高 → 对真实偏好的不确定性越大。
Conformal Calibration
- 使用校准集学习阈值 τ，使得所有熵 ≤ τ 的判断的经验误差保持在 α 以下。该过程通过经典的 split‑conformal 方法实现，即使样本数量有限也能保证风险上界。
Selective Acceptance
- 推理时，将 LLM 对该对的 BPE 与 τ 比较。若熵低（即模型有信心），则接受该判断；否则系统会弃权，将该对交由人工或更高成本的 oracle 评估。

整个流水线轻量化：每对仅需两次前向传播和一次简单的阈值查找，因而适用于大规模评估流水线。

结果与发现

基准	模型（规模）	目标 α	经验风险	覆盖率（接受的判断）
MT‑Bench	Qwen‑7B	0.10	0.098	0.71
RewardBench	Qwen‑14B	0.10	0.097	0.89
RewardBench	Qwen‑32B	0.10	0.099	0.98
Chatbot Arena	Various	0.10	≈0.10	0.80‑0.95（取决于模型）

风险保证：在所有设置下，观察到的错误率均保持在规定的 α = 0.10 之内，验证了有限样本共形保证。
覆盖率提升：相较于使用原始 softmax 置信度的朴素基线，SCOPE 在 MT‑Bench 上使用 7 B 模型时可接受的判断数量提升至 2.4 倍，仍然遵守风险上限。
BPE 与置信度：基于双向查询的熵始终与实际错误概率呈更紧密的相关性，使其成为更可靠的拒答触发器。

实际意义

成本效益高的评估流水线：团队可以用 LLM 评审员替代大部分人工成对标注，仅在模型显示高不确定性时回退到人工。这在不牺牲评估可靠性的前提下降低标注成本。
安全感知的模型排序：在错误排序可能带来下游风险的场景（例如为客服支持选择对话模型），SCOPE 的风险保证提供了可量化的安全保障。
即插即用组件：由于 BPE 只需要两次前向传播且符合校准与模型无关，开发者可以将 SCOPE 集成到现有基准套件（例如 OpenAI 的 evals、Hugging Face datasets）中，几乎不需要额外的工程工作。
可扩展至任意规模的 LLM：该方法适用于 7 B 到 32 B 参数的模型，这意味着即使是更小、更廉价的 LLM 评审员也能有效使用，扩大了在边缘或本地部署环境中的适用性。

限制与未来工作

可交换性假设：共形保证依赖于校准集和测试对是可交换的（独立同分布）。在实际中，数据漂移或领域转移可能削弱风险界限。
校准成本：每个模型和 α 值都需要单独的校准集；生成该集合仍然需要一定的人为判断。
仅支持二元偏好：当前的表述只处理成对的 “A > B” 决策。将其扩展到多候选排序或分级偏好（例如 “A 略好于 B”）留待未来研究。
BPE 中的潜在偏差：虽然 BPE 缓解了顺序偏差，但底层大语言模型中存在的系统性偏差（如文化偏见或有害内容偏见）仍会影响最终判断。研究考虑偏差的“不确定性度量”是一个开放方向。

底线：SCOPE 为开发者提供了一种实用且统计上可靠的方式，利用大语言模型进行大规模成对评估，在保持错误率受控的同时显著降低人工标注成本。如果你正在构建模型排名流水线或需要可信赖的自动评审器，尝试 SCOPE 可能会带来颠覆性的改变。

作者

Sher Badshah
Ali Emami
Hassan Sajjad

论文信息

arXiv ID: 2602.13110v1
分类: cs.CL, cs.AI
出版时间: 2026年2月13日
PDF: 下载 PDF

[Paper] SCOPE：选择性共形优化成对 LLM 评判

概述

关键贡献

Methodology

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 语义分块与自然语言的熵

[Paper] CoPE-VideoLM：用于高效视频语言模型的 Codec 原语

[Paper] 量化鲁棒 LLM 遗忘通过低秩适配

[Paper] LCSB：层循环选择性反向传播用于内存高效的设备端大语言模型微调