[Paper] 诊断 LLM 判决可靠性:Conformal Prediction Sets 与 Transitivity Violations
Source: arXiv - 2604.15302v1
概述
大型语言模型(LLMs)正日益被用作 评审,自动为生成的文本(例如摘要、翻译)打分。虽然它们整体表现良好,但我们仍然不知道单个模型对特定文档的评分有多可靠。本文引入了两种诊断工具——transitivity analysis 和 split‑conformal prediction sets——用于在 LLM‑as‑judge 流程中揭示每个实例的可靠性问题,并以被广泛引用的 SummEval 基准作为测试平台。
关键贡献
- Transitivity diagnostic:检测配对判断中的有向三元环 (A > B, B > C, C > A),揭示即使整体违规率看似低 (≤ 4 %),仍有 33‑67 % 的文档至少包含一个不一致。
- Conformal prediction sets for Likert scores:为每篇文档生成具有可证明覆盖率 (≥ 1 − α) 的分数区间。这些区间的宽度可作为可靠的“难度”信号。
- Cross‑judge consistency of set width:表明预测集宽度在四位独立评审之间相关 (平均 Pearson r ≈ 0.35),说明它捕捉的是文档固有难度而非评审特定噪声。
- Criterion‑level reliability ranking:发现 relevance 判断最为稳定 (平均集合大小 ≈ 3.0),coherence 稳定性中等 (≈ 3.9),而 fluency 与 consistency 最不可靠 (≈ 4.9)。
- Open‑source release:所有代码、提示词以及缓存的 LLM 响应均公开发布,便于可重复性研究和进一步探索。
方法论
-
Dataset & Judges – 作者使用 SummEval,该数据集包含人工撰写的摘要,并在四个标准(相关性、连贯性、流畅性、一致性)上进行评估。四个独立的 LLM 提示充当“评审”。
-
Transitivity analysis – 对每篇文档,系统在三个候选摘要之间生成两两比较。出现有向三环表明存在不一致(例如模型给出 S1 > S2,S2 > S3,但 S3 > S1)。报告包含任意环的文档比例。
-
Split conformal prediction – 将数据集划分为校准集和测试集。对于每个测试实例,模型预测 1‑5 Likert 量表上的概率分布。利用校准残差,方法构建一个预测集合,使真实分数以概率 ≥ 1 − α(通常 α = 0.1)被包含。set width(区间内的分数数量)被视为每个实例的可靠性度量。
-
Correlation analysis – 计算评审之间集合宽度的皮尔逊相关系数,以量化该度量是反映文档难度还是评审随机差异。
-
Statistical validation – 将 1,918 条评审的相关性进行汇总,得到高度显著的结果(p < 10⁻¹⁰⁰)。
结果与发现
- 传递性违规:虽然平均违规率适中(0.8‑4.1 %),但多数文档(33‑67 %)至少包含一个 3‑环,暴露出隐藏的不一致性。
- 预测集覆盖率:在所有评审员和标准下,符合集实现了承诺的覆盖率(α = 0.1 时 ≥ 90 %)。
- 集合宽度作为可靠性信号:较宽的集合(≈ 5 分)对应低置信度,而较窄的集合(≈ 3 分)表明更高置信度。评审员之间集合宽度的相关性 (r ≈ 0.32‑0.38) 证实该信号是文档特定的。
- 标准层级:
- 相关性:最可靠(平均集合大小 ≈ 3.0)。
- 连贯性:中等可靠(≈ 3.9)。
- 流畅性 与 一致性:最不可靠(≈ 4.9)。
- 评审员 vs. 标准的影响:评估标准的选择比具体的 LLM 评审员更重要,这表明文本质量的某些方面对 LLM 来说本质上更难评估。
实际意义
- 更好的自动化评估流水线 – 开发者可以标记低置信度的判断(宽置信集合),并请求人工审查或直接丢弃,从而提升整体评估质量。
- 模型选择与提示工程 – 了解相关性是最稳定的评判标准,可指导团队优先使用基于大语言模型的相关性评分,同时对流畅性/一致性得分保持谨慎。
- 动态分配人工标注预算 – 通过估计每篇文档的难度,团队可以仅在大语言模型置信度低的地方分配人工标注,从而降低标注成本。
- 基准设计 – 未来的自然语言生成基准可以将传递性检查和置信集合报告作为标准诊断手段,使排行榜更加透明。
- 工具链 – 已发布的代码可集成到 CI 流水线中,用于持续监控生产系统中 LLM‑as‑judge 的可靠性(例如摘要即服务平台)。
限制与未来工作
- 范围仅限于 SummEval – 诊断仅在单一基准上演示;需要在其他任务(例如翻译、对话)上进行更广泛的验证。
- 依赖校准集规模 – 分割共形预测需要足够大且具代表性的校准划分;数据集过小或高度偏斜可能导致区间可靠性下降。
- 提示变异性 – 本研究使用固定提示;探索提示工程如何影响传递性和集合宽度可能揭示额外的鲁棒性策略。
- 扩展到多维评分 – 当前工作将每个 Likert 维度独立处理;对标准进行联合建模可能提升可靠性估计。
总体而言,本文为开发者提供了具体且统计上可靠的工具,以判断何时可以信任 LLM 判官——以及何时不能——为实现更可靠、成本更低的自动文本评估铺平了道路。
作者
- Manan Gupta
- Dhruv Kumar
论文信息
- arXiv ID: 2604.15302v1
- 分类: cs.AI, cs.CL, cs.LG
- 出版日期: 2026年4月16日
- PDF: 下载 PDF