[Paper] 测量 LLM 评估中的所有噪声

发布: (2025年12月25日 GMT+8 02:54)
8 min read
原文: arXiv

Source: arXiv - 2512.21326v1

(请提供您希望翻译的正文内容,我将按照要求保留源链接并将正文翻译成简体中文。)

Overview

论文 “Measuring all the noises of LLM Evals” 解决了一个出乎意料的实际问题:如何判断在大型语言模型(LLMs)之间观察到的差异是真实的还是仅仅是随机波动。通过严格定义并量化模型评估中的三种不同“噪声”来源,作者为开发者提供了一套统计工具箱,可直接应用于各种基准测试。

关键贡献

  • 评估噪声的形式化分类 – 将预测噪声(模型对同一提示的答案的可变性)、数据噪声(来自抽样提示集合的可变性)以及通过全方差法则组合两者的总体噪声区分开来。
  • 全配对配对分析 – 一种可扩展的方法,可在研究中对每一对大型语言模型同时执行配对统计检验,利用数百万个单独预测。
  • 经验噪声图谱 – 在数十种流行的 LLM、任务(例如问答、摘要、代码生成)和评估设置下进行测量,揭示噪声幅度的一致模式。
  • 实用指南 – 表明预测噪声通常主导数据噪声,因此对多次运行取平均(例如使用 temperature‑0 或多数投票)可以显著提升统计功效。
  • 开源工具 – 作者发布了自动化噪声估计和显著性检验的代码,无需自定义统计专业知识。

方法论

  1. 定义噪声组件

    • 预测噪声:对固定提示,多次运行模型(不同随机种子、温度设置),记录分数的方差。
    • 数据噪声:从基准中抽取大量提示,并在单次确定性模型运行下计算提示之间的方差。
    • 总体噪声:应用全方差定律 → Var(total) = E[Var(prediction|prompt)] + Var(E[prediction|prompt])
  2. 全配对框架

    • 对于 N 个模型,为相同的 M 条提示生成预测,每个模型对每条提示重复 R 次。
    • 每一个 模型对 (i, j) 在每条提示和每次重复上构建配对差异,得到一个巨大的差异矩阵。
    • 在该矩阵上使用标准的配对 t 检验或 Wilcoxon 检验,但由于每对都共享相同的底层数据,方差估计被合并,从而得到更紧的置信区间。
  3. 大规模测量

    • 作者在 10 多个公开的 LLM 系列(GPT‑3.5、LLaMA、Claude 等)上运行该流程,覆盖 15 套基准,总计超过 1000 万个提示‑模型‑运行三元组。
    • 然后将噪声估计聚合,生成每个基准的“噪声指纹”。

结果与发现

发现数字说明
基准特定的总体噪声保持稳定在模型对之间,给定基准的总体方差变化小于 5 %——表明每个任务都有一个特征性的“噪声底”。
预测噪声 > 数据噪声平均而言,预测噪声约占总体方差的 60‑70 %,而数据噪声约占 30‑40 %。
平均化显著降低噪声将模型运行 5 次并对得分取平均,可将预测噪声降低约 80 %,把原本不显著的 2 % 性能差距转化为统计上稳健的 5 σ 效应。
全配对检验优于朴素 t 检验对相同数据使用配对方法,可得到约 2 倍更窄的置信区间,从而检测出绝对准确率提升仅 0.5 % 的效应大小。

这些模式在不同领域(文本、代码、推理)和模型规模上均成立,表明这些发现并非某单一架构的偶然现象。

实际意义

  • 快速显著性检查 – 开发者可以将发布的库直接集成到 CI 流水线中,自动标记新模型版本是否真正优于之前的版本,而无需编写自定义统计代码。
  • 成本效益评估 – 知道预测噪声是主要因素后,你可以将计算资源投入到 少量样本平均(例如,每个提示进行 3‑5 次运行),而不是扩大基准规模,从而在节省 API 成本的同时提升统计功效。
  • 基准设计 – 在创建新测试集时,目标应是使用能够最小化数据噪声的提示(例如,难度平衡),因为剩余的方差大多来源于预测噪声,因而是可控的。
  • 模型调试 – 若模型在特定任务上的预测噪声出现激增,可能表明解码策略(temperature、top‑k)不稳定,或需要改进提示工程。
  • 研究可重复性 – 在报告性能数值的同时给出这三类噪声成分,论文可以让读者清晰了解结果的“紧凑程度”,降低对边际提升的夸大风险。

限制与未来工作

  • 基准范围 – 该研究聚焦于标准的学术和行业基准;高度交互式或多模态任务(例如视觉‑语言)可能呈现不同的噪声结构。
  • 独立性假设 – 成对分析将每次提示运行视为独立;实际上,共享的系统缓存或 API 限流可能引入细微的相关性。
  • Temperature‑0 基线 – 虽然平均可以降低预测噪声,但本文未探讨多样性(更高 temperature)与下游面向用户的应用的统计功效之间的权衡。
  • 未来方向 – 将噪声分类法扩展到人类在回路中的评估,整合贝叶斯层次模型以获得更紧密的不确定性估计,并为新兴 LLM 构建公共的“噪声排行榜”。

作者

  • Sida Wang

论文信息

  • arXiv ID: 2512.21326v1
  • 分类: cs.LG, cs.AI, cs.CL, stat.ML
  • 发布时间: 2025年12月24日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »

[论文] 并行标记预测语言模型

我们提出了并行令牌预测(Parallel Token Prediction,PTP),这是一种用于语言模型中并行序列生成的通用框架。PTP 联合预测多个相互依赖的 t...