研究:对最新 LLM 排名的平台可能不可靠
Source: MIT News - AI
概览
一家希望使用大型语言模型(LLM)来汇总销售报告或分流客户询问的公司,可以在 数百种独特的 LLM 中进行选择,每种模型还有 dozens(数十)种变体,性能略有差异。
为了缩小选择范围,公司通常依赖 LLM 排名平台,这些平台收集用户对模型交互的反馈,以根据模型在特定任务上的表现对最新的 LLM 进行排名。
MIT 研究人员发现,仅少量用户交互就能扭曲结果,导致有人错误地认为某个 LLM 是特定用例的理想选择。他们的研究表明,剔除极小比例的众包数据就能改变哪些模型位居榜首。
他们开发了一种快速方法来测试排名平台,并判断其是否易受此类问题影响。该评估技术能够识别出最导致结果偏斜的单个投票,供用户检查这些有影响力的投票。
研究人员表示,这项工作凸显了 对模型排名进行更严格评估策略 的必要性。虽然本研究并未重点探讨缓解措施,但他们提供了一些可能提升平台鲁棒性的建议,例如收集更详细的反馈以生成排名。
该研究也向依赖排名来决定 LLM 采用的用户发出警示——这些决定可能对企业或组织产生深远且代价高昂的影响。
“我们惊讶于这些排名平台对该问题如此敏感。如果最终排名最高的 LLM 只依赖于成千上万条用户反馈中的两三条,那么在实际部署时就不能假设该 LLM 会始终优于所有其他 LLM,”
— Tamara Broderick,MIT EECS 副教授(主要作者)
她与论文的其他作者共同署名,包括首席作者兼 EECS 研究生 Jenny Huang 与 Yunyi Shen,以及 IBM Research 的高级研究科学家 Dennis Wei。该研究将在 国际学习表征会议(ICLR) 上进行展示。
数据剔除
虽然有许多类型的 LLM 排名平台,但最流行的变体会让用户向 两个模型 提交同一个查询,并选择哪个 LLM 给出更好的响应。
这些平台会汇总这些对决的结果,以生成显示哪些 LLM 在特定任务(例如编码、视觉理解)上表现最佳的排名。
通过选择表现最好的 LLM,用户通常期望该模型的最高排名能够 泛化——即在类似但不完全相同的应用以及新数据集上也能优于其他模型。
MIT 的研究人员此前研究了统计学和经济学中的泛化问题。那项工作揭示了在某些情况下,剔除少量数据就会改变模型的结果,表明这些研究的结论可能无法超出其狭窄的设定范围。
他们想看看同样的分析是否可以应用于 LLM 排名平台。
“归根结底,用户想知道他们是否选择了最好的 LLM。如果只有少数提示在推动这个排名,那就说明该排名可能并非绝对可靠,”
— Broderick
手动测试数据剔除现象几乎是不可能的。例如,他们评估的一个排名包含 57,000+ 票。剔除仅 0.1 % 意味着要删除每一种可能的 57 票子集(超过 10,194 种子集),并每次重新计算排名。
因此,研究人员 开发了一种高效的近似方法,基于已有工作,并将其调整以适配 LLM 排名系统。
“虽然我们有理论证明在某些假设下近似是有效的,但用户不需要去相信这些。我们的方法会在最后告诉用户哪些数据点有问题,这样他们只需剔除这些数据点,重新运行分析,并检查排名是否发生了变化,”
— Broderick
出乎意料的敏感
当该技术应用于流行的排名平台时,研究人员惊讶于只需要极少的数据点就能导致顶级 LLM 发生显著变化:
| 平台 | 分析的投票数 | 被剔除的投票数 | 剔除比例 | 效果 |
|---|---|---|---|---|
| 平台 A(众包) | > 57,000 | 2 | 0.0035 % | 顶部模型排名翻转 |
| 平台 B(专家标注员,较高质量的提示) | 2,575 | 83 | ≈ 3 % | 顶部模型被更改 |
他们的检查显示,许多有影响力的投票可能源于用户错误。在某些情况下,哪种 LLM 表现更好是显而易见的,但用户却选择了另一种模型。
“我们永远无法确切知道当时用户的想法,但他们可能误点、注意力不集中,或真的不知道哪一个更好。最大的启示是,你不希望噪声、用户错误或离群值决定哪一个是排名最高的 LLM,”
— Broderick
建议的缓解措施
- 收集更丰富的反馈——例如,要求用户为每一次投票标注置信度。
- 引入人工调解员审查众包的响应。
- 增加评估的数量和多样性,以稀释任何单一错误投票的影响。
研究人员计划继续在其他情境中探索泛化,同时开发更好的近似方法,以捕获更多非鲁棒性的实例。
“Broderick 及其学生的工作展示了如何获得特定数据点影响力的有效估计,从而实现更可信的模型排名流水线,”
— 摘录续于完整论文
Quote
“很容易认为下游过程是稳健的,尽管考虑到现代机器学习模型和数据集的规模,进行穷尽计算几乎是不可能的,”Jessica Hullman,西北大学计算机科学系 Ginni Rometty 教授(未参与此项工作)说。
“最近的研究让我们一窥在常规使用——但也非常脆弱——的人类偏好聚合方法以及利用这些偏好更新模型的强数据依赖性。看到少量偏好就能真正改变微调模型的行为,可能会激发出更为审慎的数据收集方法。”
资助
本研究部分由以下机构资助:
- 海军研究办公室
- MIT‑IBM Watson AI 实验室
- 国家科学基金会
- 亚马逊
- CSAIL 种子奖