[Paper] 为什么全球 LLM Leaderboards 具有误导性:针对异构监督式 ML 的小型组合
发布: (2026年5月8日 GMT+8 01:57)
9 分钟阅读
原文: arXiv
Source: arXiv - 2605.06656v1
请提供您希望翻译的具体文本内容,我将按照要求保留源链接并进行简体中文翻译。
概述
论文 Why Global LLM Leaderboards Are Misleading: Small Portfolios for Heterogeneous Supervised ML 表明,使用单一全局分数(例如 Bradley‑Terry 或 Elo)对大型语言模型(LLM)进行排名的常见做法掩盖了用户之间的巨大分歧。通过分析约 89 K 对跨 116 种语言、52 种 LLM 的人工判断,作者展示了“最佳模型”往往与许多其他模型难以区分,并且语言特定的子群体实际上拥有一致但相互冲突的偏好。
关键贡献
- 对全球 LLM 排名的实证审计: 分析了 Arena 基准的 89 K 人类比较,发现约 66 % 的决定性投票相互抵消,且前 50 名模型的胜率差异不足 0.53。
- 结构化异质性的识别: 表明语言(及语言家族)是导致分歧的主要因素;按语言分组会使 Elo 差距膨胀两个数量级。
- $(\lambda,\nu)$‑组合框架: 引入一种形式化方法,用于构建小模型集合,使其对至少 $\nu$ 分数的用户满足目标误差界限 $\lambda$,将问题视为具有 VC 维度保证的集合覆盖变体。
- 具有可证明覆盖率的算法解决方案: 开发了贪心式算法,仅恢复 5 个不同的 BT 排名即可覆盖 >96 % 的投票,而单一全局排名的覆盖率仅为 21 %。
- 真实案例研究: 构建了一个 6 模型组合,使投票覆盖率是全球排名前 6 的 LLM 的两倍,并将组合理念应用于 COMPAS 数据集上的公平正则化分类器,以揭示对政策分析有用的“盲点”。
方法论
- 数据收集与预处理 – 作者使用公开的 Arena 数据集,其中包含对 52 种 LLM 在 116 种语言上的成对人类偏好判断。每个判断指示在人类对给定提示的偏好中更倾向于哪个模型的输出。
- 全局 Bradley‑Terry (BT) 拟合 – 他们首先对所有比较进行单一 BT 模型拟合,得到全局排名及相应的获胜概率。
- 异质性分析 – 通过按语言、任务类型和时间切分数据,测量组内一致性(例如 Elo 方差)与组间不一致性。
- $(\lambda,\nu)$‑组合定义 – 对于任意用户(或投票)集合 $U$,若至少有比例 $\nu$ 的 $U$ 在组合 $P$ 中拥有一个模型,以概率 ≥ $1-\lambda$ 能击败备选模型,则该组合满足误差界 $\lambda$。
- 集合覆盖公式化 – 将每个模型视为在 $\lambda$ 阈值下能够满足的“投票集合”。寻找覆盖 $\nu$ 投票的最小模型组合即为经典的集合覆盖问题。
- 算法求解 – 贪心算法在每次迭代中选择能够最大化边际覆盖的模型;利用投票‑模型关联矩阵的 VC 维度推导理论保证。
- 评估 – 对得到的组合在覆盖率、误差和多样性上进行评估,并与全局 BT 排名以及朴素的 top‑k 选择进行比较。
结果与发现
| Aspect | Global BT ranking | Language‑grouped BT rankings | $(\lambda,\nu)$‑portfolios |
|---|---|---|---|
| Coverage of votes | 21 % (top‑50 models) | Up to 96 % with 5 language‑specific rankings | 96 % with 5‑model portfolio (λ≈0.1) |
| Elo spread | ~0.2 (very flat) | ~20–30 (orders of magnitude larger) | Comparable to language‑grouped spread |
| Top‑6 model comparison | 6 models cover ~12 % of votes | N/A (multiple groups) | 6‑model portfolio covers ~24 % of votes |
| Statistical distinguishability | Pairwise win prob ≤ 0.53 within top‑50 | Clear separation within language groups | Portfolio ensures ≤ λ error for covered users |
关键要点:
- “global best”模型在统计上与许多其他模型难以区分。
- 语言是形成一致子偏好的主要因素;在考虑语言后,排名才变得有意义。
- 通过精心挑选的小型portfolio,能够显著提升获得符合其期望模型的用户比例。
实际意义
- Product teams can serve multiple “regional” models instead of a single “global” LLM, improving user satisfaction without a massive increase in infrastructure cost. → 产品团队可以提供多个“区域”模型,而不是单一的“全局”大语言模型,从而在不大幅增加基础设施成本的情况下提升用户满意度。
- API providers can expose a “model portfolio” endpoint that returns a short list of candidate models tailored to a user’s language or domain, letting downstream services pick the best fit. → API 提供商可以开放一个“模型组合”端点,返回针对用户语言或领域的候选模型简短列表,让下游服务选择最合适的模型。
- Evaluation pipelines should incorporate heterogeneity checks (e.g., language‑wise Elo variance) before publishing a single leaderboard score. → 评估流水线应加入异质性检查(例如,按语言划分的 Elo 方差),再发布单一的排行榜分数。
- Fairness audits can leverage portfolios: by constructing ensembles of fairness‑regularized classifiers, stakeholders can identify demographic groups that are poorly served by any single model and target remedial data collection. → 公平性审计可以利用模型组合:通过构建公平正则化分类器的集成,利益相关者可以识别任何单一模型服务不足的特定人口群体,并针对性地进行数据收集补救。
- Set‑cover‑style algorithms are lightweight and can be integrated into model‑selection services to automatically maintain a minimal yet high‑coverage portfolio as new models are released. → 集合覆盖式算法轻量且易于集成,可嵌入模型选择服务,自动维护一个在新模型发布时仍保持最小规模但覆盖率高的组合。
限制与未来工作
- 本分析仅限于 Arena 基准;其他任务(例如代码生成、检索增强生成)可能呈现不同的异质性模式。
- $(\lambda,\nu)$‑组合框架假设二元的“满意/不满意”投票模型;将其扩展到分级偏好或多轮交互仍是未解之题。
- 集合覆盖的表述在模型池极大时可能计算成本高昂;可扩展的近似方法或在线更新是有前景的方向。
- 未来工作可以探索能够实时适应用户反馈的动态组合,或将语言分组与领域专长、延迟约束、成本等其他维度结合。
作者
- Jai Moondra
- Ayela Chughtai
- Bhargavi Lanka
- Swati Gupta
论文信息
- arXiv ID: 2605.06656v1
- 分类: cs.LG, cs.DM, cs.ET, math.OC
- 出版日期: 2026年5月7日
- PDF: 下载 PDF