[Paper] 测量 LLM 评估中的所有噪声

发布: 1个月前 (2025年12月25日 GMT+8 02:54)

8 分钟阅读

原文: arXiv

Source: arXiv - 2512.21326v1

（请提供您希望翻译的正文内容，我将按照要求保留源链接并将正文翻译成简体中文。）

Overview

论文 “Measuring all the noises of LLM Evals” 解决了一个出乎意料的实际问题：如何判断在大型语言模型（LLMs）之间观察到的差异是真实的还是仅仅是随机波动。通过严格定义并量化模型评估中的三种不同“噪声”来源，作者为开发者提供了一套统计工具箱，可直接应用于各种基准测试。

关键贡献

评估噪声的形式化分类 – 将预测噪声（模型对同一提示的答案的可变性）、数据噪声（来自抽样提示集合的可变性）以及通过全方差法则组合两者的总体噪声区分开来。
全配对配对分析 – 一种可扩展的方法，可在研究中对每一对大型语言模型同时执行配对统计检验，利用数百万个单独预测。
经验噪声图谱 – 在数十种流行的 LLM、任务（例如问答、摘要、代码生成）和评估设置下进行测量，揭示噪声幅度的一致模式。
实用指南 – 表明预测噪声通常主导数据噪声，因此对多次运行取平均（例如使用 temperature‑0 或多数投票）可以显著提升统计功效。
开源工具 – 作者发布了自动化噪声估计和显著性检验的代码，无需自定义统计专业知识。

方法论

定义噪声组件
- 预测噪声：对固定提示，多次运行模型（不同随机种子、温度设置），记录分数的方差。
- 数据噪声：从基准中抽取大量提示，并在单次确定性模型运行下计算提示之间的方差。
- 总体噪声：应用全方差定律 → Var(total) = E[Var(prediction|prompt)] + Var(E[prediction|prompt])。
全配对框架
- 对于 N 个模型，为相同的 M 条提示生成预测，每个模型对每条提示重复 R 次。
- 为 每一个 模型对 (i, j) 在每条提示和每次重复上构建配对差异，得到一个巨大的差异矩阵。
- 在该矩阵上使用标准的配对 t 检验或 Wilcoxon 检验，但由于每对都共享相同的底层数据，方差估计被合并，从而得到更紧的置信区间。
大规模测量
- 作者在 10 多个公开的 LLM 系列（GPT‑3.5、LLaMA、Claude 等）上运行该流程，覆盖 15 套基准，总计超过 1000 万个提示‑模型‑运行三元组。
- 然后将噪声估计聚合，生成每个基准的“噪声指纹”。

结果与发现

发现	数字说明
基准特定的总体噪声保持稳定	在模型对之间，给定基准的总体方差变化小于 5 %——表明每个任务都有一个特征性的“噪声底”。
预测噪声 > 数据噪声	平均而言，预测噪声约占总体方差的 60‑70 %，而数据噪声约占 30‑40 %。
平均化显著降低噪声	将模型运行 5 次并对得分取平均，可将预测噪声降低约 80 %，把原本不显著的 2 % 性能差距转化为统计上稳健的 5 σ 效应。
全配对检验优于朴素 t 检验	对相同数据使用配对方法，可得到约 2 倍更窄的置信区间，从而检测出绝对准确率提升仅 0.5 % 的效应大小。

这些模式在不同领域（文本、代码、推理）和模型规模上均成立，表明这些发现并非某单一架构的偶然现象。

实际意义

快速显著性检查 – 开发者可以将发布的库直接集成到 CI 流水线中，自动标记新模型版本是否真正优于之前的版本，而无需编写自定义统计代码。
成本效益评估 – 知道预测噪声是主要因素后，你可以将计算资源投入到 少量样本平均（例如，每个提示进行 3‑5 次运行），而不是扩大基准规模，从而在节省 API 成本的同时提升统计功效。
基准设计 – 在创建新测试集时，目标应是使用能够最小化数据噪声的提示（例如，难度平衡），因为剩余的方差大多来源于预测噪声，因而是可控的。
模型调试 – 若模型在特定任务上的预测噪声出现激增，可能表明解码策略（temperature、top‑k）不稳定，或需要改进提示工程。
研究可重复性 – 在报告性能数值的同时给出这三类噪声成分，论文可以让读者清晰了解结果的“紧凑程度”，降低对边际提升的夸大风险。

限制与未来工作

基准范围 – 该研究聚焦于标准的学术和行业基准；高度交互式或多模态任务（例如视觉‑语言）可能呈现不同的噪声结构。
独立性假设 – 成对分析将每次提示运行视为独立；实际上，共享的系统缓存或 API 限流可能引入细微的相关性。
Temperature‑0 基线 – 虽然平均可以降低预测噪声，但本文未探讨多样性（更高 temperature）与下游面向用户的应用的统计功效之间的权衡。
未来方向 – 将噪声分类法扩展到人类在回路中的评估，整合贝叶斯层次模型以获得更紧密的不确定性估计，并为新兴 LLM 构建公共的“噪声排行榜”。

作者

Sida Wang

论文信息

arXiv ID: 2512.21326v1
分类: cs.LG, cs.AI, cs.CL, stat.ML
发布时间: 2025年12月24日
PDF: 下载 PDF

[Paper] 测量 LLM 评估中的所有噪声

Overview

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] A2P-Vis：一种分析器到呈现器的代理管道，用于视觉洞察生成与报告

[Paper] 介绍 TrGLUE 与 SentiTurca：土耳其语通用语言理解与情感分析的综合基准

[Paper] 统一学习动力学与泛化的Transformer缩放定律

[Paper] 通过量化不确定性优化 Masked Diffusion Models 中的解码路径