[Paper] ReasonBENCH：基准测试 LLM 推理的（不）稳定性

发布: 1周前 (2025年12月9日 GMT+8 02:26)

7 min read

原文: arXiv

Source: arXiv - 2512.07795v1

概览

大型语言模型（LLM）如今已被用于需要逐步推理的任务——比如链式思考提示、数学题求解或代码生成。全新的 ReasonBENCH 基准揭示了一个隐藏的问题：大多数论文只报告单次运行的准确率，忽视了随机解码会导致相同提示在不同运行中产生截然不同的答案。本文量化了这种不稳定性，并为社区提供了一个可复现、考虑方差的评估框架。

主要贡献

首个专门针对 LLM 推理不稳定性的基准，覆盖多个领域（数学、常识、代码等）。
模块化评估库，统一推理框架、模型 API 与任务格式，便于插入新提示或模型。
多次运行协议，自动对每个实验进行多次运行，计算置信区间，并报告成本调整后的指标（token 数、延迟、API 费用）。
公开排行榜，同时展示平均性能和变异性，鼓励研究者发布考虑方差的结果。
实证分析 表明，大多数推理策略的方差很高；一些平均分相同的方法，其置信区间宽度相差最高可达 4 倍，而得分最高的方法往往拥有最不稳定的成本表现。

方法论

任务套件 – ReasonBENCH 汇集了一套精心挑选的推理任务（如 GSM‑8K 数学、ARC‑Easy、CodeEval），这些任务需要多步推理。
标准化提示模板 – 对每个任务，库提供多种提示风格（普通、链式思考、自洽等），确保比较在同一基准线上。
多次运行执行 – 每个提示‑模型‑任务组合会在随机解码设置下执行 N 次（默认 N = 30），使用 temperature > 0、top‑p 采样等方式。
统计报告 – 框架将原始输出聚合为：
- 平均解答率（准确率或完全匹配）。
- 95 % 置信区间，基于经验分布计算。
- 成本统计（平均 token 使用量、API 费用、延迟）及其方差。
排行榜集成 – 结果自动推送至公开排行榜，既可视化中心趋势，也展示离散程度，使不稳定性成为一等指标。

结果与发现

普遍不稳定 – 超过 85 % 的模型‑提示组合的置信区间大于平均准确率的 5 %，即使在 GSM‑8K 等成熟基准上亦是如此。
性能与稳定性的权衡 – 顶级的链式思考 + 自洽设置虽取得最高平均分，却伴随最宽的置信区间和最不稳定的 token 成本。
提示敏感性 – 细微的措辞变化（例如 “Let’s think step‑by‑step” 与 “First, consider”）可使方差提升至 2 倍，凸显进行提示层面鲁棒性检查的必要性。
模型规模效应 – 更大的模型（如 GPT‑4 级别）相对更稳定，但提升并非线性；一些中等规模模型（如 LLaMA‑13B）在相同解码设置下表现异常不稳定。
成本不稳定性 – 使用多次采样（自洽）的方法可使平均 token 使用量翻倍，且成本方差是单次采样基线的四倍。

实际意义

生产部署 – 工程师应将 LLM 推理输出视为概率性的，而非确定性的。进行少量采样并聚合（如多数投票）可显著降低失败率。
预算预测 – 由于成本方差可能很大，团队需要为最坏情况的 token 使用量预留预算，而非仅依据均值估计。ReasonBENCH 的成本感知指标提升了预算透明度。
提示工程流水线 – 自动化提示调优应将方差作为目标之一，而非仅追求均值准确率。这将产生既高性能又在多次运行中可靠的提示。
模型选择 – 在为推理密集型产品挑选模型时，应考虑其稳定性画像：稍低一点的准确率但更稳定的模型可能带来更佳的用户体验和更低的运营成本。
基准文化转变 – 通过在分数旁公布置信区间，社区能够更好地评估可复现性，减少“挑选”结果的现象，加速不确定性感知推理方法的研发。

局限性与未来工作

仅限解码设置 – 本基准聚焦于基于 temperature 的随机解码；确定性解码（如贪心）及其他采样策略（如 nucleus 与 top‑k）仍需单独研究。
任务覆盖范围 – 虽然 ReasonBENCH 涵盖了多个领域，但尚未包括长篇推理（如法律分析）或结合文本与图像的多模态任务。
多次运行实验的可扩展性 – 对每个配置运行 30 次以上的采样对大型商业 API 成本高昂；未来工作可探索使用更少运行次数或自适应采样进行方差估计的方法。
不确定性量化技术 – 作者提供了基准，但模型层面的不确定性估计器（如贝叶斯 LLM）仍是开放的研究方向。

ReasonBENCH 为 LLM 推理的更诚实、可复现评估打开了大门——开发者、产品团队和研究者都可以立即使用它来构建更可靠的 AI 系统。

作者

Nearchos Potamitis
Lars Klein
Akhil Arora

论文信息

arXiv ID: 2512.07795v1
分类: cs.AI, cs.CL, cs.LG
发表时间: 2025 年 12 月 8 日
PDF: Download PDF

[Paper] ReasonBENCH：基准测试 LLM 推理的（不）稳定性

概览

主要贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] 美国最高法院案件分类过程中的大语言模型记忆

[Paper] 大型语言模型中的事件序列建模时间标记化策略

[Paper] Nemotron-Cascade：规模化级联强化学习用于通用推理模型

[Paper] Textual Gradients 是 Automatic Prompt Optimization 的错误隐喻