[Paper] Martingale Score:一种用于大语言模型推理中贝叶斯理性的无监督度量

发布: (2025年12月3日 GMT+8 00:34)
7 min read
原文: arXiv

Source: arXiv - 2512.02914v1

概览

本文提出了 Martingale Score,一种无监督度量,用于评估大型语言模型(LLM)在多步推理过程中更新信念的忠实程度。通过借鉴贝叶斯统计中的 martingale(鞅)属性,作者揭示了 LLM 在面对新证据时倾向于 更加固执 于最初猜测,而非真正修正它们的系统性倾向。

关键贡献

  • Martingale Score:一种基于回归的无监督度量,用于量化 LLM 信念更新中对贝叶斯鞅属性的违背程度。
  • 实证调查:在三个开放式领域(事件预测、价值倾向问题、学术论文评审)的大规模评估表明,信念固执在不同模型族和提示技术中普遍存在。
  • 模型与技术诊断:识别出哪些模型规模、提示风格(如 chain‑of‑thought、self‑consistency)以及问题领域最容易出现固执。
  • 真值相关性:证明更高的 Martingale Score(即更大违背)能够预测在有金标准标签的任务上准确率更低,验证该度量可作为追求真理能力的代理。
  • 开源工具包:发布代码和评估脚本,使实践者能够在自己的 LLM 流程中计算 Martingale Score。

方法论

  1. 信念表示 – 对于每一步推理,LLM 输出一个关于可能答案的概率分布(或置信分数),这被视为模型的 信念
  2. 鞅属性 – 在理性的贝叶斯更新者中,条件于当前信念的未来信念的期望等于当前信念。换言之,当前信念不应系统性地预测下一次更新的方向。
  3. 分数计算 – 作者在大量推理轨迹上拟合一个简单的线性回归,用当前信念预测下一步信念。回归系数(斜率)衡量可预测性:斜率≈0 表示鞅行为;正斜率则表明固执。相对于零的绝对偏差,经过任务间归一化后即为 Martingale Score
  4. 评估协议 – 他们在三套基准上运行多种 LLM(GPT‑3.5、GPT‑4、LLaMA 系列),收集不同提示策略(zero‑shot、chain‑of‑thought、self‑consistency)下的信念轨迹。
  5. 验证 – 对于已有答案的任务(例如后续揭示结果的预测问题),他们将 Martingale Score 与实际准确率进行相关性分析,以检验预测能力。

结果与发现

模型 / 提示平均 Martingale Score与准确率的相关性
GPT‑4 (CoT)0.12–0.48
GPT‑3.5 (Zero‑shot)0.21–0.62
LLaMA‑13B (Self‑Consistency)0.34–0.71
  • 广泛的固执现象:在所有设置中,当前信念 正向预测 下一信念,说明模型倾向于对早期猜测加倍下注。
  • 提示敏感性:Chain‑of‑thought(CoT)提示相较于纯 zero‑shot 能降低固执程度,但并未消除。对于较小模型,self‑consistency 有时会放大该效应。
  • 领域差异:价值倾向问题(如伦理困境)得分最高,而事实预测任务的固执程度稍低。
  • 预测有效性:更高的 Martingale Score 始终与下游准确率下降相对应,确认该度量作为无监督质量指示器的实用性。

实际意义

  • 调试推理流水线:开发者可以在任何多步 LLM 工作流(如工具使用代理、迭代摘要)上运行 Martingale Score,以发现模型何时“卡在”早期假设上。
  • 提示工程:该度量提供了比较提示策略的量化手段;得分更低暗示更具追求真理的行为,可指导更佳的 CoT 或验证提示设计。
  • 模型选择:在需要大量推理的应用(如法律分析、科学文献综述)中,Martingale Score 可作为模型无关的基准,尤其在标注数据稀缺时。
  • 安全与对齐:固执的信念是确认偏误的红灯,可能放大错误信息。将基于 Martingale 的监控集成到 LLM 助手中,可在系统自信地给出错误答案前触发回退机制(如外部事实核查)。
  • 持续评估:由于该度量是无监督的,可在生产运行时实时计算,实现无需金标准标签的实时健康检查。

局限性与未来工作

  • 对校准的敏感性:该度量假设模型的置信分数已良好校准;校准不佳的概率可能导致 Martingale Score 被夸大或缩小。
  • 任务范围:研究聚焦于开放式推理,尚不清楚该度量在约束严密的任务(如代码生成)中表现如何,因为此类任务的信念更新不够显式。
  • 因果解释:虽然高分与低准确率相关,但固执与错误之间的因果关系尚未完全确立。
  • 未来方向:作者建议将框架扩展到多模态模型,探索干预手段(如随机信念扰动)以打破固执,并将该分数整合进人类反馈强化学习循环,以提升对齐效果。

作者

  • Zhonghao He
  • Tianyi Qiu
  • Hirokazu Shirado
  • Maarten Sap

论文信息

  • arXiv ID: 2512.02914v1
  • 分类: cs.AI, cs.CL, cs.LG
  • 发布日期: 2025 年 12 月 2 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »