研究：对最新 LLM 排名的平台可能不可靠

发布: 3天前 (2026年2月9日 GMT+8 13:00)

9 分钟阅读

原文: MIT News - AI

Source: MIT News - AI

概览

一家希望使用大型语言模型（LLM）来汇总销售报告或分流客户询问的公司，可以在 数百种独特的 LLM 中进行选择，每种模型还有 dozens（数十）种变体，性能略有差异。

为了缩小选择范围，公司通常依赖 LLM 排名平台，这些平台收集用户对模型交互的反馈，以根据模型在特定任务上的表现对最新的 LLM 进行排名。

MIT 研究人员发现，仅少量用户交互就能扭曲结果，导致有人错误地认为某个 LLM 是特定用例的理想选择。他们的研究表明，剔除极小比例的众包数据就能改变哪些模型位居榜首。

他们开发了一种快速方法来测试排名平台，并判断其是否易受此类问题影响。该评估技术能够识别出最导致结果偏斜的单个投票，供用户检查这些有影响力的投票。

研究人员表示，这项工作凸显了 对模型排名进行更严格评估策略 的必要性。虽然本研究并未重点探讨缓解措施，但他们提供了一些可能提升平台鲁棒性的建议，例如收集更详细的反馈以生成排名。

该研究也向依赖排名来决定 LLM 采用的用户发出警示——这些决定可能对企业或组织产生深远且代价高昂的影响。

“我们惊讶于这些排名平台对该问题如此敏感。如果最终排名最高的 LLM 只依赖于成千上万条用户反馈中的两三条，那么在实际部署时就不能假设该 LLM 会始终优于所有其他 LLM，”
— Tamara Broderick，MIT EECS 副教授（主要作者）

她与论文的其他作者共同署名，包括首席作者兼 EECS 研究生 Jenny Huang 与 Yunyi Shen，以及 IBM Research 的高级研究科学家 Dennis Wei。该研究将在 国际学习表征会议（ICLR） 上进行展示。

论文链接

数据剔除

虽然有许多类型的 LLM 排名平台，但最流行的变体会让用户向 两个模型 提交同一个查询，并选择哪个 LLM 给出更好的响应。

这些平台会汇总这些对决的结果，以生成显示哪些 LLM 在特定任务（例如编码、视觉理解）上表现最佳的排名。

通过选择表现最好的 LLM，用户通常期望该模型的最高排名能够泛化——即在类似但不完全相同的应用以及新数据集上也能优于其他模型。

MIT 的研究人员此前研究了统计学和经济学中的泛化问题。那项工作揭示了在某些情况下，剔除少量数据就会改变模型的结果，表明这些研究的结论可能无法超出其狭窄的设定范围。

他们想看看同样的分析是否可以应用于 LLM 排名平台。

“归根结底，用户想知道他们是否选择了最好的 LLM。如果只有少数提示在推动这个排名，那就说明该排名可能并非绝对可靠，”
— Broderick

手动测试数据剔除现象几乎是不可能的。例如，他们评估的一个排名包含 57,000+ 票。剔除仅 0.1 % 意味着要删除每一种可能的 57 票子集（超过 10,194 种子集），并每次重新计算排名。

因此，研究人员 开发了一种高效的近似方法，基于已有工作，并将其调整以适配 LLM 排名系统。

“虽然我们有理论证明在某些假设下近似是有效的，但用户不需要去相信这些。我们的方法会在最后告诉用户哪些数据点有问题，这样他们只需剔除这些数据点，重新运行分析，并检查排名是否发生了变化，”
— Broderick

出乎意料的敏感

当该技术应用于流行的排名平台时，研究人员惊讶于只需要极少的数据点就能导致顶级 LLM 发生显著变化：

平台	分析的投票数	被剔除的投票数	剔除比例	效果
平台 A（众包）	> 57,000	2	0.0035 %	顶部模型排名翻转
平台 B（专家标注员，较高质量的提示）	2,575	83	≈ 3 %	顶部模型被更改

他们的检查显示，许多有影响力的投票可能源于用户错误。在某些情况下，哪种 LLM 表现更好是显而易见的，但用户却选择了另一种模型。

“我们永远无法确切知道当时用户的想法，但他们可能误点、注意力不集中，或真的不知道哪一个更好。最大的启示是，你不希望噪声、用户错误或离群值决定哪一个是排名最高的 LLM，”
— Broderick

建议的缓解措施

收集更丰富的反馈——例如，要求用户为每一次投票标注置信度。
引入人工调解员审查众包的响应。
增加评估的数量和多样性，以稀释任何单一错误投票的影响。

研究人员计划继续在其他情境中探索泛化，同时开发更好的近似方法，以捕获更多非鲁棒性的实例。

“Broderick 及其学生的工作展示了如何获得特定数据点影响力的有效估计，从而实现更可信的模型排名流水线，”
— 摘录续于完整论文

Quote

“很容易认为下游过程是稳健的，尽管考虑到现代机器学习模型和数据集的规模，进行穷尽计算几乎是不可能的，”Jessica Hullman，西北大学计算机科学系 Ginni Rometty 教授（未参与此项工作）说。
“最近的研究让我们一窥在常规使用——但也非常脆弱——的人类偏好聚合方法以及利用这些偏好更新模型的强数据依赖性。看到少量偏好就能真正改变微调模型的行为，可能会激发出更为审慎的数据收集方法。”

资助

本研究部分由以下机构资助：

海军研究办公室
MIT‑IBM Watson AI 实验室
国家科学基金会
亚马逊
CSAIL 种子奖

研究：对最新 LLM 排名的平台可能不可靠

概览

数据剔除

出乎意料的敏感

建议的缓解措施

Quote

资助

相关文章

针对持续运行模型的部署前评估

什么是RAG？检索增强生成解释

超越 RAG：使用知识图谱构建具备“Deep Memory”的 AI 伴侣

图像分类与CNNs – 第3部分：理解最大池化和结果