研究:对最新 LLM 排名的平台可能不可靠

发布: (2026年2月9日 GMT+8 13:00)
9 分钟阅读

Source: MIT News - AI

概览

一家希望使用大型语言模型(LLM)来汇总销售报告或分流客户询问的公司,可以在 数百种独特的 LLM 中进行选择,每种模型还有 dozens(数十)种变体,性能略有差异。

为了缩小选择范围,公司通常依赖 LLM 排名平台,这些平台收集用户对模型交互的反馈,以根据模型在特定任务上的表现对最新的 LLM 进行排名。

MIT 研究人员发现,仅少量用户交互就能扭曲结果,导致有人错误地认为某个 LLM 是特定用例的理想选择。他们的研究表明,剔除极小比例的众包数据就能改变哪些模型位居榜首。

他们开发了一种快速方法来测试排名平台,并判断其是否易受此类问题影响。该评估技术能够识别出最导致结果偏斜的单个投票,供用户检查这些有影响力的投票。

研究人员表示,这项工作凸显了 对模型排名进行更严格评估策略 的必要性。虽然本研究并未重点探讨缓解措施,但他们提供了一些可能提升平台鲁棒性的建议,例如收集更详细的反馈以生成排名。

该研究也向依赖排名来决定 LLM 采用的用户发出警示——这些决定可能对企业或组织产生深远且代价高昂的影响。

“我们惊讶于这些排名平台对该问题如此敏感。如果最终排名最高的 LLM 只依赖于成千上万条用户反馈中的两三条,那么在实际部署时就不能假设该 LLM 会始终优于所有其他 LLM,”
Tamara Broderick,MIT EECS 副教授(主要作者)

她与论文的其他作者共同署名,包括首席作者兼 EECS 研究生 Jenny HuangYunyi Shen,以及 IBM Research 的高级研究科学家 Dennis Wei。该研究将在 国际学习表征会议(ICLR) 上进行展示。

论文链接

数据剔除

虽然有许多类型的 LLM 排名平台,但最流行的变体会让用户向 两个模型 提交同一个查询,并选择哪个 LLM 给出更好的响应。

这些平台会汇总这些对决的结果,以生成显示哪些 LLM 在特定任务(例如编码、视觉理解)上表现最佳的排名。

通过选择表现最好的 LLM,用户通常期望该模型的最高排名能够 泛化——即在类似但不完全相同的应用以及新数据集上也能优于其他模型。

MIT 的研究人员此前研究了统计学和经济学中的泛化问题。那项工作揭示了在某些情况下,剔除少量数据就会改变模型的结果,表明这些研究的结论可能无法超出其狭窄的设定范围。

他们想看看同样的分析是否可以应用于 LLM 排名平台。

“归根结底,用户想知道他们是否选择了最好的 LLM。如果只有少数提示在推动这个排名,那就说明该排名可能并非绝对可靠,”
Broderick

手动测试数据剔除现象几乎是不可能的。例如,他们评估的一个排名包含 57,000+ 票。剔除仅 0.1 % 意味着要删除每一种可能的 57 票子集(超过 10,194 种子集),并每次重新计算排名。

因此,研究人员 开发了一种高效的近似方法,基于已有工作,并将其调整以适配 LLM 排名系统。

“虽然我们有理论证明在某些假设下近似是有效的,但用户不需要去相信这些。我们的方法会在最后告诉用户哪些数据点有问题,这样他们只需剔除这些数据点,重新运行分析,并检查排名是否发生了变化,”
Broderick

出乎意料的敏感

当该技术应用于流行的排名平台时,研究人员惊讶于只需要极少的数据点就能导致顶级 LLM 发生显著变化:

平台分析的投票数被剔除的投票数剔除比例效果
平台 A(众包)> 57,00020.0035 %顶部模型排名翻转
平台 B(专家标注员,较高质量的提示)2,57583≈ 3 %顶部模型被更改

他们的检查显示,许多有影响力的投票可能源于用户错误。在某些情况下,哪种 LLM 表现更好是显而易见的,但用户却选择了另一种模型。

“我们永远无法确切知道当时用户的想法,但他们可能误点、注意力不集中,或真的不知道哪一个更好。最大的启示是,你不希望噪声、用户错误或离群值决定哪一个是排名最高的 LLM,”
Broderick

建议的缓解措施

  • 收集更丰富的反馈——例如,要求用户为每一次投票标注置信度。
  • 引入人工调解员审查众包的响应。
  • 增加评估的数量和多样性,以稀释任何单一错误投票的影响。

研究人员计划继续在其他情境中探索泛化,同时开发更好的近似方法,以捕获更多非鲁棒性的实例。

“Broderick 及其学生的工作展示了如何获得特定数据点影响力的有效估计,从而实现更可信的模型排名流水线,”
摘录续于完整论文

Quote

“很容易认为下游过程是稳健的,尽管考虑到现代机器学习模型和数据集的规模,进行穷尽计算几乎是不可能的,”Jessica Hullman,西北大学计算机科学系 Ginni Rometty 教授(未参与此项工作)说。
“最近的研究让我们一窥在常规使用——但也非常脆弱——的人类偏好聚合方法以及利用这些偏好更新模型的强数据依赖性。看到少量偏好就能真正改变微调模型的行为,可能会激发出更为审慎的数据收集方法。”

资助

本研究部分由以下机构资助:

  • 海军研究办公室
  • MIT‑IBM Watson AI 实验室
  • 国家科学基金会
  • 亚马逊
  • CSAIL 种子奖
0 浏览
Back to Blog

相关文章

阅读更多 »