[Paper] 对降低LLMs中上下文幻觉的概率保证

发布: (2026年1月2日 GMT+8 18:52)
8 min read
原文: arXiv

Source: arXiv - 2601.00641v1

概述

大型语言模型(LLMs)在生成文本方面表现出色,但它们经常出现“幻觉”——给出与提示中提供的事实相矛盾或忽视这些事实的答案。这对于输入固定且正确答案明确的确定性自动化流水线来说是一个严重问题。本文提出了一种轻量级、模型无关的框架,提供 概率保证,说明仅通过重复相同的提示并使用基于 LLM 的评判器来挑选正确答案,就可以在多大程度上降低幻觉。

关键贡献

  • 确定性任务的形式化定义(固定输入 + 精确正确性标准)以及对同一提示的独立重复能够指数级降低联合错误概率的证明。
  • LLM‑as‑judge 流程:使用第二个 LLM 对多个生成答案进行评估;作者基于评审者的真正率(true‑positive)和假正率(false‑positive)推导出失败概率的上界。
  • 不完美评审者的集成投票:展示对若干独立评审调用进行多数投票,可随投票数量呈指数级降低整体错误率。
  • 经验验证:在合成抽取任务上进行实验,结果与理论预测精确匹配至小数点后最后一位。
  • 模型无关、零训练方案:适用于任何现成的 LLM,无需微调、修改解码方式或设计复杂提示。

方法论

  1. 任务形式化 – 作者将“任务”视为一个元组 (输入, 正确性谓词)。该谓词可以自动评估(例如,答案是否包含特定字符串?)。
  2. 重复生成 – 将相同的提示发送给 LLM k 次,每次在独立的上下文窗口中,产生 k 个候选答案。由于每次调用在统计上相互独立,所有 k 个答案都错误的概率会下降为 (p^k),其中 p 是单次运行的错误率。
  3. LLM‑作为判官 – 第二个 LLM 接收每个候选答案以及原始提示,并判断“正确/错误”。判官本身具有真正率 t 和假正率 f
  4. 选择策略 – 流程挑选判官置信度最高的答案(或在多个判官之间进行多数投票)。作者推导出整体失败概率是 tfk(生成重复次数)和 j(判官重复次数)的函数。
  5. 判官的集成投票 – 当判官噪声较大时,他们将判定步骤重复 j 次并采用多数投票,这同样导致错误率随 j 指数衰减。
  6. 实验 – 使用合成抽取任务(例如,“从 JSON 中返回字段 X 的值”)并人为引入噪声判官,验证观察到的失败率符合推导的指数曲线。

结果与发现

变量对失败概率的影响
生成重复次数 (k)错误率随 (p^k) 下降。若基准错误率为 20 %,进行 3 次重复可将失败率降至 0.8 %。
判官真阳性率 (t)更高的 t 直接降低上界;即使是适度的 t = 0.7,结合重复也能提供强有力的保证。
判官假阳性率 (f)较低的 f 减少管道选择幻觉答案的概率。
判官重复次数 (j)多数投票使有效 f 指数下降;当 j = 5 且 f = 0.2 时,整体假阳性约为 ≈0.01。

实验曲线几乎完美地叠加在理论预测上,证实了独立性假设在实际测试的语言模型(GPT‑3.5‑turbo 和 Claude‑2)中成立。

实际意义

  • 确定性自动化 – 数据提取、代码生成或配置合成流水线现在可以在不触及模型内部的情况下强化对幻觉的防护。
  • 成本效益可靠性 – 开发者可以用适度增加的 API 调用来换取可证明的错误率降低,而无需昂贵的微调,这对延迟容忍的批处理任务非常有吸引力。
  • 模块化架构 – 生成阶段和判断阶段可以独立替换(例如,使用成本更低的 LLM 进行生成,使用更准确的模型进行判断)。
  • 安全关键系统 – 在合同分析或医学报告摘要等场景中,指数衰减的保证为审计员提供了可量化的风险指标。
  • 工具集成 – 该方法通过添加 “repeat‑N” 与 “judge‑ensemble” 任务,可无缝映射到现有的编排框架(Airflow、Prefect)中。

限制与未来工作

  • 独立性假设 – 该理论依赖于生成调用在统计上相互独立;缓存或确定性温度设置可能会违反此假设。
  • 评判质量依赖 – 如果评判者的误报率很高,则需要大量重复,这可能抵消成本优势。
  • 任务范围 – 实验聚焦于具有明确正确性谓词的抽取式任务;将其扩展到开放式生成(例如创意写作)仍是未解之题。
  • 延迟 – 线性重复调用会增加响应时间;未来工作可以探索并行或自适应停止准则。
  • 真实世界噪声评判者 – 本文使用合成噪声评判者;在有人参与或特定领域评判者上进行评估将提升实际可信度。

总体而言,本文为需要在固定输入的 LLM 工作流中获得针对上下文幻觉的 硬性保证 的开发者提供了一套务实且有理论支撑的方案。

作者

  • Nils Rautenberg
  • Sven Schippkus

论文信息

  • arXiv ID: 2601.00641v1
  • 分类: cs.CL
  • 出版时间: 2026年1月2日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »