[Paper] 测量 LLM 评估中的所有噪声
发布: (2025年12月25日 GMT+8 02:54)
8 min read
原文: arXiv
Source: arXiv - 2512.21326v1
(请提供您希望翻译的正文内容,我将按照要求保留源链接并将正文翻译成简体中文。)
Overview
论文 “Measuring all the noises of LLM Evals” 解决了一个出乎意料的实际问题:如何判断在大型语言模型(LLMs)之间观察到的差异是真实的还是仅仅是随机波动。通过严格定义并量化模型评估中的三种不同“噪声”来源,作者为开发者提供了一套统计工具箱,可直接应用于各种基准测试。
关键贡献
- 评估噪声的形式化分类 – 将预测噪声(模型对同一提示的答案的可变性)、数据噪声(来自抽样提示集合的可变性)以及通过全方差法则组合两者的总体噪声区分开来。
- 全配对配对分析 – 一种可扩展的方法,可在研究中对每一对大型语言模型同时执行配对统计检验,利用数百万个单独预测。
- 经验噪声图谱 – 在数十种流行的 LLM、任务(例如问答、摘要、代码生成)和评估设置下进行测量,揭示噪声幅度的一致模式。
- 实用指南 – 表明预测噪声通常主导数据噪声,因此对多次运行取平均(例如使用 temperature‑0 或多数投票)可以显著提升统计功效。
- 开源工具 – 作者发布了自动化噪声估计和显著性检验的代码,无需自定义统计专业知识。
方法论
-
定义噪声组件
- 预测噪声:对固定提示,多次运行模型(不同随机种子、温度设置),记录分数的方差。
- 数据噪声:从基准中抽取大量提示,并在单次确定性模型运行下计算提示之间的方差。
- 总体噪声:应用全方差定律 →
Var(total) = E[Var(prediction|prompt)] + Var(E[prediction|prompt])。
-
全配对框架
- 对于 N 个模型,为相同的 M 条提示生成预测,每个模型对每条提示重复 R 次。
- 为 每一个 模型对 (i, j) 在每条提示和每次重复上构建配对差异,得到一个巨大的差异矩阵。
- 在该矩阵上使用标准的配对 t 检验或 Wilcoxon 检验,但由于每对都共享相同的底层数据,方差估计被合并,从而得到更紧的置信区间。
-
大规模测量
- 作者在 10 多个公开的 LLM 系列(GPT‑3.5、LLaMA、Claude 等)上运行该流程,覆盖 15 套基准,总计超过 1000 万个提示‑模型‑运行三元组。
- 然后将噪声估计聚合,生成每个基准的“噪声指纹”。
结果与发现
| 发现 | 数字说明 |
|---|---|
| 基准特定的总体噪声保持稳定 | 在模型对之间,给定基准的总体方差变化小于 5 %——表明每个任务都有一个特征性的“噪声底”。 |
| 预测噪声 > 数据噪声 | 平均而言,预测噪声约占总体方差的 60‑70 %,而数据噪声约占 30‑40 %。 |
| 平均化显著降低噪声 | 将模型运行 5 次并对得分取平均,可将预测噪声降低约 80 %,把原本不显著的 2 % 性能差距转化为统计上稳健的 5 σ 效应。 |
| 全配对检验优于朴素 t 检验 | 对相同数据使用配对方法,可得到约 2 倍更窄的置信区间,从而检测出绝对准确率提升仅 0.5 % 的效应大小。 |
这些模式在不同领域(文本、代码、推理)和模型规模上均成立,表明这些发现并非某单一架构的偶然现象。
实际意义
- 快速显著性检查 – 开发者可以将发布的库直接集成到 CI 流水线中,自动标记新模型版本是否真正优于之前的版本,而无需编写自定义统计代码。
- 成本效益评估 – 知道预测噪声是主要因素后,你可以将计算资源投入到 少量样本平均(例如,每个提示进行 3‑5 次运行),而不是扩大基准规模,从而在节省 API 成本的同时提升统计功效。
- 基准设计 – 在创建新测试集时,目标应是使用能够最小化数据噪声的提示(例如,难度平衡),因为剩余的方差大多来源于预测噪声,因而是可控的。
- 模型调试 – 若模型在特定任务上的预测噪声出现激增,可能表明解码策略(temperature、top‑k)不稳定,或需要改进提示工程。
- 研究可重复性 – 在报告性能数值的同时给出这三类噪声成分,论文可以让读者清晰了解结果的“紧凑程度”,降低对边际提升的夸大风险。
限制与未来工作
- 基准范围 – 该研究聚焦于标准的学术和行业基准;高度交互式或多模态任务(例如视觉‑语言)可能呈现不同的噪声结构。
- 独立性假设 – 成对分析将每次提示运行视为独立;实际上,共享的系统缓存或 API 限流可能引入细微的相关性。
- Temperature‑0 基线 – 虽然平均可以降低预测噪声,但本文未探讨多样性(更高 temperature)与下游面向用户的应用的统计功效之间的权衡。
- 未来方向 – 将噪声分类法扩展到人类在回路中的评估,整合贝叶斯层次模型以获得更紧密的不确定性估计,并为新兴 LLM 构建公共的“噪声排行榜”。
作者
- Sida Wang
论文信息
- arXiv ID: 2512.21326v1
- 分类: cs.LG, cs.AI, cs.CL, stat.ML
- 发布时间: 2025年12月24日
- PDF: 下载 PDF