[Paper] 当 Elo 失真:基于 Codeforces 的大语言模型评估中的隐藏偏差
Source: arXiv - 2602.05891v1
概述
论文 When Elo Lies: Hidden Biases in Codeforces‑Based Evaluation of Large Language Models 揭示了许多研究者和产品团队在竞争编程任务上对大型语言模型进行基准测试时的一个严重可靠性问题。通过剖析影响 Codeforces Elo 分数的隐藏变量,作者表明,同一模型在不同实验细节下可能表现出显著更强或更弱的效果——这对任何依赖这些数字来指导开发或营销决策的人来说都是一个警示信号。
关键贡献
- 基于 Elo 的 LLM 评估系统审计 – 识别出三个主要的隐藏偏差来源:提交顺序、竞赛难度选择以及随机的运行间差异。
- 大规模受控基准 – 在 37 场近期 Codeforces 竞赛中运行 13,691 个生成的测试用例,提供可复现的数据集供后续研究使用。
- 定量影响分析 – 表明:
- 更改提交顺序可使 Elo 变化约 394 分。
- 选择不同的竞赛子集可使同一模型的分数变化最高达 1,122 分。
- 重新运行相同评估的平均 Elo 方差约为 349 分。
- 可靠报告指南 – 提出必须随任何基于 Elo 的声明一起提供的最小实验元数据集(种子、竞赛列表、提交时间表)。
方法论
- 模型选择与提示 – 作者使用了多种最先进的 LLM(例如 GPT‑4、Claude、LLaMA‑2)并使用统一的 “solve‑the‑problem” 提示,以保持交互风格一致。
- 竞赛池构建 – 选取了过去六个月发布的 37 场 Codeforces 竞赛,覆盖了不同难度层级(Div. 2 A–F,Div. 1)。
- 测试用例生成 – 对每个问题自动生成 13,691 个输入实例(在有官方题目生成器时使用它们,否则通过随机抽样在约束范围内生成)。
- Elo 计算流程 – 将提交发送给 LLM,模型的答案与官方检查器对比,虚拟“选手”获得或失去 Elo 分数,方式与人类选手完全相同。
- 偏差实验:
- 提交顺序:在 100 次运行中随机置换问题实例的顺序。
- 竞赛选择:均匀抽样评估所有可能的 10 场竞赛子集组合,以观察竞赛选择对最终评分的影响。
- 运行间变异:在相同设置下重新执行整个流程 30 次,使用不同的随机种子,捕捉 LLM 生成的随机性。
所有代码、数据以及完整的评估脚本均在开源许可证下发布,以便复现。
结果与发现
| 因素 | 观察到的 Elo 摇摆(最大) | 解释 |
|---|---|---|
| 提交顺序 | 394 分 | 早期成功比后期成功对评分提升更大,因为 Elo 更新是乘法性的;重新排序因此可能人为地抬高或降低分数。 |
| 竞赛选择 | 1,122 分 | 某些竞赛包含较高比例的“陷阱”题目,LLM 处理较差;省略这些题目会让模型看起来更强。 |
| 运行间随机性 | 349 分(平均差异) | 基于温度的采样和非确定性 token 选择导致即使在相同输入下答案也会有差异,产生非平凡的评分抖动。 |
总体而言,作者得出结论:除非披露精确的实验配置,否则 跨论文的直接 Elo 比较是不可靠的。这些摇摆幅度远远超过文献中报告的典型性能差距,这意味着许多声称的“最先进”改进可能是评估设计的产物,而非真实的模型进步。
Source: …
实际影响
- 对产品团队:仅依赖单一的 Elo 数值来宣传 LLM 的“编码能力”可能会产生误导。团队应当将 Elo 与更确定性的指标(例如固定测试套件的通过率)结合使用,并始终公布竞赛列表和提交时间表。
- 对研究人员:在发布新的 LLM 基准时,需包含可复现性检查清单:随机种子、问题生成器版本、精确的竞赛 ID,以及问题呈现的顺序。这将使同行之间的比较更具意义。
- 对工具供应商:自动评估平台(如 OpenAI 的 eval 套件、EvalAI)应提供排序的配置选项,并允许用户锁定一个“规范”竞赛集合,以降低无意的偏差。
- 对社区:这些发现鼓励转向聚合指标(例如平均正确率、解题时间),而不是单一的 Elo 分数,尤其在公平性至关重要的大规模排行榜中。
限制与未来工作
- 竞赛范围:本研究聚焦于近期的 Codeforces 轮次;较早的或非 Codeforces 平台(如 AtCoder、LeetCode)可能呈现不同的偏差模式。
- 模型多样性:仅测试了少数公开可用的 LLM;采用不同解码策略的专有模型可能表现不同。
- 提示工程:作者使用了固定提示;探索提示变体如何与已识别的偏差交互仍是一个未解的问题。
- 长期稳定性:未来工作可以考察模型更新(例如在竞赛编程数据上微调)随时间对 Elo 敏感性的影响。
通过揭示这些隐藏变量,本文推动社区朝着更透明、可复现且可信的 LLM 在竞赛编程及更广泛领域的评估实践前进。
作者
- Shenyu Zheng
- Ximing Dong
- Xiaoshuang Liu
- Gustavo Oliva
- Chong Chun Yong
- Dayi Lin
- Boyuan Chen
- Shaowei Wang
- Ahmed E. Hassan
论文信息
- arXiv ID: 2602.05891v1
- 分类: cs.SE
- 发布时间: 2026年2月5日
- PDF: Download PDF