[Paper] 为什么全球 LLM Leaderboards 具有误导性:针对异构监督式 ML 的小型组合

发布: (2026年5月8日 GMT+8 01:57)
9 分钟阅读
原文: arXiv

Source: arXiv - 2605.06656v1

请提供您希望翻译的具体文本内容,我将按照要求保留源链接并进行简体中文翻译。

概述

论文 Why Global LLM Leaderboards Are Misleading: Small Portfolios for Heterogeneous Supervised ML 表明,使用单一全局分数(例如 Bradley‑Terry 或 Elo)对大型语言模型(LLM)进行排名的常见做法掩盖了用户之间的巨大分歧。通过分析约 89 K 对跨 116 种语言、52 种 LLM 的人工判断,作者展示了“最佳模型”往往与许多其他模型难以区分,并且语言特定的子群体实际上拥有一致但相互冲突的偏好。

关键贡献

  • 对全球 LLM 排名的实证审计: 分析了 Arena 基准的 89 K 人类比较,发现约 66 % 的决定性投票相互抵消,且前 50 名模型的胜率差异不足 0.53。
  • 结构化异质性的识别: 表明语言(及语言家族)是导致分歧的主要因素;按语言分组会使 Elo 差距膨胀两个数量级。
  • $(\lambda,\nu)$‑组合框架: 引入一种形式化方法,用于构建模型集合,使其对至少 $\nu$ 分数的用户满足目标误差界限 $\lambda$,将问题视为具有 VC 维度保证的集合覆盖变体。
  • 具有可证明覆盖率的算法解决方案: 开发了贪心式算法,仅恢复 5 个不同的 BT 排名即可覆盖 >96 % 的投票,而单一全局排名的覆盖率仅为 21 %。
  • 真实案例研究: 构建了一个 6 模型组合,使投票覆盖率是全球排名前 6 的 LLM 的两倍,并将组合理念应用于 COMPAS 数据集上的公平正则化分类器,以揭示对政策分析有用的“盲点”。

方法论

  1. 数据收集与预处理 – 作者使用公开的 Arena 数据集,其中包含对 52 种 LLM 在 116 种语言上的成对人类偏好判断。每个判断指示在人类对给定提示的偏好中更倾向于哪个模型的输出。
  2. 全局 Bradley‑Terry (BT) 拟合 – 他们首先对所有比较进行单一 BT 模型拟合,得到全局排名及相应的获胜概率。
  3. 异质性分析 – 通过按语言、任务类型和时间切分数据,测量组内一致性(例如 Elo 方差)与组间不一致性。
  4. $(\lambda,\nu)$‑组合定义 – 对于任意用户(或投票)集合 $U$,若至少有比例 $\nu$ 的 $U$ 在组合 $P$ 中拥有一个模型,以概率 ≥ $1-\lambda$ 能击败备选模型,则该组合满足误差界 $\lambda$。
  5. 集合覆盖公式化 – 将每个模型视为在 $\lambda$ 阈值下能够满足的“投票集合”。寻找覆盖 $\nu$ 投票的最小模型组合即为经典的集合覆盖问题。
  6. 算法求解 – 贪心算法在每次迭代中选择能够最大化边际覆盖的模型;利用投票‑模型关联矩阵的 VC 维度推导理论保证。
  7. 评估 – 对得到的组合在覆盖率、误差和多样性上进行评估,并与全局 BT 排名以及朴素的 top‑k 选择进行比较。

结果与发现

AspectGlobal BT rankingLanguage‑grouped BT rankings$(\lambda,\nu)$‑portfolios
Coverage of votes21 % (top‑50 models)Up to 96 % with 5 language‑specific rankings96 % with 5‑model portfolio (λ≈0.1)
Elo spread~0.2 (very flat)~20–30 (orders of magnitude larger)Comparable to language‑grouped spread
Top‑6 model comparison6 models cover ~12 % of votesN/A (multiple groups)6‑model portfolio covers ~24 % of votes
Statistical distinguishabilityPairwise win prob ≤ 0.53 within top‑50Clear separation within language groupsPortfolio ensures ≤ λ error for covered users

关键要点:

  • “global best”模型在统计上与许多其他模型难以区分。
  • 语言是形成一致子偏好的主要因素;在考虑语言后,排名才变得有意义。
  • 通过精心挑选的小型portfolio,能够显著提升获得符合其期望模型的用户比例。

实际意义

  • Product teams can serve multiple “regional” models instead of a single “global” LLM, improving user satisfaction without a massive increase in infrastructure cost. → 产品团队可以提供多个“区域”模型,而不是单一的“全局”大语言模型,从而在不大幅增加基础设施成本的情况下提升用户满意度。
  • API providers can expose a “model portfolio” endpoint that returns a short list of candidate models tailored to a user’s language or domain, letting downstream services pick the best fit. → API 提供商可以开放一个“模型组合”端点,返回针对用户语言或领域的候选模型简短列表,让下游服务选择最合适的模型。
  • Evaluation pipelines should incorporate heterogeneity checks (e.g., language‑wise Elo variance) before publishing a single leaderboard score. → 评估流水线应加入异质性检查(例如,按语言划分的 Elo 方差),再发布单一的排行榜分数。
  • Fairness audits can leverage portfolios: by constructing ensembles of fairness‑regularized classifiers, stakeholders can identify demographic groups that are poorly served by any single model and target remedial data collection. → 公平性审计可以利用模型组合:通过构建公平正则化分类器的集成,利益相关者可以识别任何单一模型服务不足的特定人口群体,并针对性地进行数据收集补救。
  • Set‑cover‑style algorithms are lightweight and can be integrated into model‑selection services to automatically maintain a minimal yet high‑coverage portfolio as new models are released. → 集合覆盖式算法轻量且易于集成,可嵌入模型选择服务,自动维护一个在新模型发布时仍保持最小规模但覆盖率高的组合。

限制与未来工作

  • 本分析仅限于 Arena 基准;其他任务(例如代码生成、检索增强生成)可能呈现不同的异质性模式。
  • $(\lambda,\nu)$‑组合框架假设二元的“满意/不满意”投票模型;将其扩展到分级偏好或多轮交互仍是未解之题。
  • 集合覆盖的表述在模型池极大时可能计算成本高昂;可扩展的近似方法或在线更新是有前景的方向。
  • 未来工作可以探索能够实时适应用户反馈的动态组合,或将语言分组与领域专长、延迟约束、成本等其他维度结合。

作者

  • Jai Moondra
  • Ayela Chughtai
  • Bhargavi Lanka
  • Swati Gupta

论文信息

  • arXiv ID: 2605.06656v1
  • 分类: cs.LG, cs.DM, cs.ET, math.OC
  • 出版日期: 2026年5月7日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »