[Paper] 为什么全球 LLM Leaderboards 具有误导性：针对异构监督式 ML 的小型组合

发布: 3天前 (2026年5月8日 GMT+8 01:57)

9 分钟阅读

原文: arXiv

Source: arXiv - 2605.06656v1

请提供您希望翻译的具体文本内容，我将按照要求保留源链接并进行简体中文翻译。

概述

论文 Why Global LLM Leaderboards Are Misleading: Small Portfolios for Heterogeneous Supervised ML 表明，使用单一全局分数（例如 Bradley‑Terry 或 Elo）对大型语言模型（LLM）进行排名的常见做法掩盖了用户之间的巨大分歧。通过分析约 89 K 对跨 116 种语言、52 种 LLM 的人工判断，作者展示了“最佳模型”往往与许多其他模型难以区分，并且语言特定的子群体实际上拥有一致但相互冲突的偏好。

关键贡献

对全球 LLM 排名的实证审计： 分析了 Arena 基准的 89 K 人类比较，发现约 66 % 的决定性投票相互抵消，且前 50 名模型的胜率差异不足 0.53。
结构化异质性的识别： 表明语言（及语言家族）是导致分歧的主要因素；按语言分组会使 Elo 差距膨胀两个数量级。
$(\lambda,\nu)$‑组合框架： 引入一种形式化方法，用于构建小模型集合，使其对至少 $\nu$ 分数的用户满足目标误差界限 $\lambda$，将问题视为具有 VC 维度保证的集合覆盖变体。
具有可证明覆盖率的算法解决方案： 开发了贪心式算法，仅恢复 5 个不同的 BT 排名即可覆盖 >96 % 的投票，而单一全局排名的覆盖率仅为 21 %。
真实案例研究： 构建了一个 6 模型组合，使投票覆盖率是全球排名前 6 的 LLM 的两倍，并将组合理念应用于 COMPAS 数据集上的公平正则化分类器，以揭示对政策分析有用的“盲点”。

方法论

数据收集与预处理 – 作者使用公开的 Arena 数据集，其中包含对 52 种 LLM 在 116 种语言上的成对人类偏好判断。每个判断指示在人类对给定提示的偏好中更倾向于哪个模型的输出。
全局 Bradley‑Terry (BT) 拟合 – 他们首先对所有比较进行单一 BT 模型拟合，得到全局排名及相应的获胜概率。
异质性分析 – 通过按语言、任务类型和时间切分数据，测量组内一致性（例如 Elo 方差）与组间不一致性。
$(\lambda,\nu)$‑组合定义 – 对于任意用户（或投票）集合 $U$，若至少有比例 $\nu$ 的 $U$ 在组合 $P$ 中拥有一个模型，以概率 ≥ $1-\lambda$ 能击败备选模型，则该组合满足误差界 $\lambda$。
集合覆盖公式化 – 将每个模型视为在 $\lambda$ 阈值下能够满足的“投票集合”。寻找覆盖 $\nu$ 投票的最小模型组合即为经典的集合覆盖问题。
算法求解 – 贪心算法在每次迭代中选择能够最大化边际覆盖的模型；利用投票‑模型关联矩阵的 VC 维度推导理论保证。
评估 – 对得到的组合在覆盖率、误差和多样性上进行评估，并与全局 BT 排名以及朴素的 top‑k 选择进行比较。

结果与发现

Aspect	Global BT ranking	Language‑grouped BT rankings	$(\lambda,\nu)$‑portfolios
Coverage of votes	21 % (top‑50 models)	Up to 96 % with 5 language‑specific rankings	96 % with 5‑model portfolio (λ≈0.1)
Elo spread	~0.2 (very flat)	~20–30 (orders of magnitude larger)	Comparable to language‑grouped spread
Top‑6 model comparison	6 models cover ~12 % of votes	N/A (multiple groups)	6‑model portfolio covers ~24 % of votes
Statistical distinguishability	Pairwise win prob ≤ 0.53 within top‑50	Clear separation within language groups	Portfolio ensures ≤ λ error for covered users

关键要点：

“global best”模型在统计上与许多其他模型难以区分。
语言是形成一致子偏好的主要因素；在考虑语言后，排名才变得有意义。
通过精心挑选的小型portfolio，能够显著提升获得符合其期望模型的用户比例。

实际意义

Product teams can serve multiple “regional” models instead of a single “global” LLM, improving user satisfaction without a massive increase in infrastructure cost. → 产品团队可以提供多个“区域”模型，而不是单一的“全局”大语言模型，从而在不大幅增加基础设施成本的情况下提升用户满意度。
API providers can expose a “model portfolio” endpoint that returns a short list of candidate models tailored to a user’s language or domain, letting downstream services pick the best fit. → API 提供商可以开放一个“模型组合”端点，返回针对用户语言或领域的候选模型简短列表，让下游服务选择最合适的模型。
Evaluation pipelines should incorporate heterogeneity checks (e.g., language‑wise Elo variance) before publishing a single leaderboard score. → 评估流水线应加入异质性检查（例如，按语言划分的 Elo 方差），再发布单一的排行榜分数。
Fairness audits can leverage portfolios: by constructing ensembles of fairness‑regularized classifiers, stakeholders can identify demographic groups that are poorly served by any single model and target remedial data collection. → 公平性审计可以利用模型组合：通过构建公平正则化分类器的集成，利益相关者可以识别任何单一模型服务不足的特定人口群体，并针对性地进行数据收集补救。
Set‑cover‑style algorithms are lightweight and can be integrated into model‑selection services to automatically maintain a minimal yet high‑coverage portfolio as new models are released. → 集合覆盖式算法轻量且易于集成，可嵌入模型选择服务，自动维护一个在新模型发布时仍保持最小规模但覆盖率高的组合。

限制与未来工作

本分析仅限于 Arena 基准；其他任务（例如代码生成、检索增强生成）可能呈现不同的异质性模式。
$(\lambda,\nu)$‑组合框架假设二元的“满意/不满意”投票模型；将其扩展到分级偏好或多轮交互仍是未解之题。
集合覆盖的表述在模型池极大时可能计算成本高昂；可扩展的近似方法或在线更新是有前景的方向。
未来工作可以探索能够实时适应用户反馈的动态组合，或将语言分组与领域专长、延迟约束、成本等其他维度结合。

作者

Jai Moondra
Ayela Chughtai
Bhargavi Lanka
Swati Gupta

论文信息

arXiv ID: 2605.06656v1
分类: cs.LG, cs.DM, cs.ET, math.OC
出版日期: 2026年5月7日
PDF: 下载 PDF

[Paper] 为什么全球 LLM Leaderboards 具有误导性：针对异构监督式 ML 的小型组合

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 归一化轨迹模型

[Paper] Zero-Shot 想象语音解码 via 想象到聆听的MEG映射

[Paper] GRAPHLCP：结构感知的图上局部化 Conformal Prediction

[论文] VecCISC：提升基于置信度的自一致性——推理轨迹聚类与候选答案选择