[Paper] 分解提示并不能弥补知识鸿沟,但能帮助模型说‘I Don't Know’

发布: (2026年2月5日 GMT+8 02:39)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.04853v1

概述

大型语言模型(LLMs)在回答事实性问题方面表现出色,但它们常常假装自己知道答案,实际上并不知道,从而产生自信的幻觉。论文*Decomposed Prompting Does Not Fix Knowledge Gaps, But Helps Models Say “I Don’t Know”*研究了将问题拆分为更小步骤(分解提示)是否能提升LLM的可靠性,并发现了一种简单的方法,让模型在不确定时选择回避。

关键贡献

  • 三种提示模式比较:
    • Direct – 让模型一次性作答。
    • Assistive – 提供一个外部的“帮助者”提示,给出提示信息。
    • Incremental – 将问题拆解为子问题并合并答案。
  • 跨模式分歧作为可靠性信号: 当三种模式的答案不一致时,答案更有可能是错误的。
  • 无需训练的拒答策略: 在模式分歧时拒绝作答,系统在不增加检索、微调或额外模型参数的情况下显著降低幻觉。
  • 广泛评估: 在多个多跳 QA 基准(如 HotpotQA、ComplexWebQuestions)以及不同模型规模(从 2.7 B 到 175 B 参数)上的实验表明该方法在各方面均有效。
  • 与标准不确定性基线对比: 基于分歧的拒答在 F1 和 AUROC 两项指标上均优于基于熵和置信分数的基线。

方法论

  1. 提示设计 – 作者构造了三个功能等价的提示,仅在向模型呈现问题的方式上有所不同。
  2. 推理流水线 – 对每个输入问题,模型运行三次(每种方案一次),收集三个文本答案。
  3. 一致性检查 – 如果三个答案完全相同(或映射到相同的归一化答案),系统输出该答案。若答案不一致,模型 弃答(返回 “I don’t know”)。
  4. 评估指标 – 在有答案的子集上测量标准 QA 指标(Exact Match,F1),而弃答质量则使用 AUROC 和校准曲线评估。
  5. 基线 – 作者与以下方法进行比较:
    • Softmax 置信度(最大 token 概率)。
    • 输出分布的熵
    • Monte‑Carlo dropout(基于采样的不确定性)。

整个流水线 不需要额外的训练、检索或外部知识源——只需使用不同提示进行多次前向传播。

Source:

结果与发现

模型(规模)基线 F1(无弃答)异议‑弃答后的 F1AUROC(错误检测)
LLaMA‑2 7B62.4 %71.8 %(≈ 9 % 提升)0.84
LLaMA‑2 13B68.1 %76.3 %0.88
GPT‑3 175B78.5 %84.2 %0.91

关键要点

  • 随着模型规模增大,分解带来的准确率提升会减小,这印证了先前的研究——前沿模型已经内化了许多推理步骤。
  • 分歧是强有力的错误预测指标:只要任意两个方案出现分歧,答案错误的概率超过 80 %,且与模型大小无关。
  • 弃答提升整体质量:在模糊案例上拒答,使得已回答集合的精确率提升,这对安全关键的应用尤为重要。
  • 除额外的前向传播外几乎无额外成本:该方法相较于检索增强的流水线在计算上非常廉价。

实际意义

  • 安全‑优先 QA 服务 – 公司可以将任何闭卷 LLM 包装上轻量级的“置信度防护栏”,只需运行三个提示并在答案不一致时放弃回答。这降低了向终端用户提供错误信息的风险。
  • 成本效益可靠性 – 由于不需要微调或外部知识库,该技术可以在现有 API(例如 OpenAI、Anthropic)上部署,工程工作量最小。
  • 开发者调试工具 – 不一致模式可以突出模型知识薄弱的主题,指导数据收集或提示策略。
  • 可组合流水线 – 该方法可与检索增强生成(RAG)结合:首先尝试不一致‑弃答;若模型弃答,则回退到检索步骤。这样可构建混合系统,仅在必要时为昂贵的检索付费。
  • 监管合规 – 在医疗或金融等领域,能够说“我不知道”往往是法律要求;此方法提供了满足该需求的直接途径。

限制与未来工作

  • 延迟增加 – 运行三次前向传播会使推理时间增加三倍;对于实时应用,可能需要批处理或模型蒸馏。
  • 提示敏感性 – 效果取决于三个提示的设计;选择不当的提示可能导致虚假的分歧。
  • 二元回避 – 当前策略是硬性的“是/否”决定。未来工作可以探索分级置信分数或部分答案生成。
  • 范围局限于多跳问答 – 虽然作者在多个基准上进行了测试,但该技术在其他任务(例如代码生成、摘要)上的迁移效果仍不明确。
  • 扩展到更大规模的集成 – 探索添加更多多样化的提示或模型是否能在不产生高昂成本的情况下进一步提升可靠性仍是一个未解之问。

作者

  • Dhruv Madhwal
  • Lyuxin David Zhang
  • Dan Roth
  • Tomer Wolfson
  • Vivek Gupta

Paper Information

  • arXiv ID: 2602.04853v1
  • Categories: cs.CL
  • Published: 2026年2月4日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »