[Paper] Martingale Score:一种用于大语言模型推理中贝叶斯理性的无监督度量
发布: (2025年12月3日 GMT+8 00:34)
7 min read
原文: arXiv
Source: arXiv - 2512.02914v1
概览
本文提出了 Martingale Score,一种无监督度量,用于评估大型语言模型(LLM)在多步推理过程中更新信念的忠实程度。通过借鉴贝叶斯统计中的 martingale(鞅)属性,作者揭示了 LLM 在面对新证据时倾向于 更加固执 于最初猜测,而非真正修正它们的系统性倾向。
关键贡献
- Martingale Score:一种基于回归的无监督度量,用于量化 LLM 信念更新中对贝叶斯鞅属性的违背程度。
- 实证调查:在三个开放式领域(事件预测、价值倾向问题、学术论文评审)的大规模评估表明,信念固执在不同模型族和提示技术中普遍存在。
- 模型与技术诊断:识别出哪些模型规模、提示风格(如 chain‑of‑thought、self‑consistency)以及问题领域最容易出现固执。
- 真值相关性:证明更高的 Martingale Score(即更大违背)能够预测在有金标准标签的任务上准确率更低,验证该度量可作为追求真理能力的代理。
- 开源工具包:发布代码和评估脚本,使实践者能够在自己的 LLM 流程中计算 Martingale Score。
方法论
- 信念表示 – 对于每一步推理,LLM 输出一个关于可能答案的概率分布(或置信分数),这被视为模型的 信念。
- 鞅属性 – 在理性的贝叶斯更新者中,条件于当前信念的未来信念的期望等于当前信念。换言之,当前信念不应系统性地预测下一次更新的方向。
- 分数计算 – 作者在大量推理轨迹上拟合一个简单的线性回归,用当前信念预测下一步信念。回归系数(斜率)衡量可预测性:斜率≈0 表示鞅行为;正斜率则表明固执。相对于零的绝对偏差,经过任务间归一化后即为 Martingale Score。
- 评估协议 – 他们在三套基准上运行多种 LLM(GPT‑3.5、GPT‑4、LLaMA 系列),收集不同提示策略(zero‑shot、chain‑of‑thought、self‑consistency)下的信念轨迹。
- 验证 – 对于已有答案的任务(例如后续揭示结果的预测问题),他们将 Martingale Score 与实际准确率进行相关性分析,以检验预测能力。
结果与发现
| 模型 / 提示 | 平均 Martingale Score | 与准确率的相关性 |
|---|---|---|
| GPT‑4 (CoT) | 0.12 | –0.48 |
| GPT‑3.5 (Zero‑shot) | 0.21 | –0.62 |
| LLaMA‑13B (Self‑Consistency) | 0.34 | –0.71 |
- 广泛的固执现象:在所有设置中,当前信念 正向预测 下一信念,说明模型倾向于对早期猜测加倍下注。
- 提示敏感性:Chain‑of‑thought(CoT)提示相较于纯 zero‑shot 能降低固执程度,但并未消除。对于较小模型,self‑consistency 有时会放大该效应。
- 领域差异:价值倾向问题(如伦理困境)得分最高,而事实预测任务的固执程度稍低。
- 预测有效性:更高的 Martingale Score 始终与下游准确率下降相对应,确认该度量作为无监督质量指示器的实用性。
实际意义
- 调试推理流水线:开发者可以在任何多步 LLM 工作流(如工具使用代理、迭代摘要)上运行 Martingale Score,以发现模型何时“卡在”早期假设上。
- 提示工程:该度量提供了比较提示策略的量化手段;得分更低暗示更具追求真理的行为,可指导更佳的 CoT 或验证提示设计。
- 模型选择:在需要大量推理的应用(如法律分析、科学文献综述)中,Martingale Score 可作为模型无关的基准,尤其在标注数据稀缺时。
- 安全与对齐:固执的信念是确认偏误的红灯,可能放大错误信息。将基于 Martingale 的监控集成到 LLM 助手中,可在系统自信地给出错误答案前触发回退机制(如外部事实核查)。
- 持续评估:由于该度量是无监督的,可在生产运行时实时计算,实现无需金标准标签的实时健康检查。
局限性与未来工作
- 对校准的敏感性:该度量假设模型的置信分数已良好校准;校准不佳的概率可能导致 Martingale Score 被夸大或缩小。
- 任务范围:研究聚焦于开放式推理,尚不清楚该度量在约束严密的任务(如代码生成)中表现如何,因为此类任务的信念更新不够显式。
- 因果解释:虽然高分与低准确率相关,但固执与错误之间的因果关系尚未完全确立。
- 未来方向:作者建议将框架扩展到多模态模型,探索干预手段(如随机信念扰动)以打破固执,并将该分数整合进人类反馈强化学习循环,以提升对齐效果。
作者
- Zhonghao He
- Tianyi Qiu
- Hirokazu Shirado
- Maarten Sap
论文信息
- arXiv ID: 2512.02914v1
- 分类: cs.AI, cs.CL, cs.LG
- 发布日期: 2025 年 12 月 2 日
- PDF: Download PDF