[Paper] 改进推理语言模型中的参数化知识访问

发布: 3天前 (2026年2月26日 GMT+8 02:43)

8 分钟阅读

原文: arXiv

Source: arXiv - 2602.22193v1

概述

本文研究了大型语言模型（LLMs）如何检索存储在其参数中的事实知识。虽然最近的“reasoning”模型在逐步解决问题（例如数学）方面表现出色，但它们常常跳过那种可以提升纯粹事实回忆的内部推理（例如 “Canberra is the capital of Australia”）。作者展示了一个微小的提示调整就能提升知识回忆，随后他们使用强化学习（RL）对模型进行微调，使其显式地对自身参数化知识进行推理，在多个 QA 基准上实现了显著提升。

关键贡献

经验发现: 标准的推理训练 LLM 不会自动生成最有效的知识检索推理痕迹。加入“逐步思考”提示可提升事实回忆而不影响数学表现。
基于 RL 的训练方案: 引入轻量级强化学习微调阶段，奖励模型在世界知识问答（TriviaQA）上产生正确的推理链。
跨任务迁移: RL 训练的模型在另外四个数据集上表现出一致提升（Natural Questions +4.2%，HotpotQA +2.1%，SimpleQA +0.6%，StrategyQA +3.0%）。
欠优化分析: 证明现有推理模型在参数化知识访问方面欠优化，适度的任务特定 RL 可以弥补这一差距。

方法论

基线模型： 使用公开可得的推理 LLM，这些模型此前已在面向数学的任务上通过强化学习进行微调。
提示工程测试： 比较两种提示——普通问题 vs. “逐步思考，然后回答”——以量化显式推理提示对事实问答的影响。
强化学习微调：
- 奖励信号： 在 TriviaQA（大型、可验证的知识基准）上最终答案的二元正确性。
- 策略： 语言模型的 token 生成分布，以“逐步思考”提示为条件。
- 优化方法： 近端策略优化（PPO），在少量 epoch（≈原始训练数据的 1 %）上进行。
评估： 在 TriviaQA（分布内）以及四个分布外 QA 数据集上测量精确匹配准确率，以评估迁移效果。

该方法刻意保持简洁：在事实问答任务上进行一次强化学习微调，保持模型的其余部分不变。

结果与发现

数据集	基线（无 RL）	加上 “逐步思考” 提示	在 TriviaQA 上进行 RL 后
TriviaQA	68.4%	71.2% (+2.8)	78.3% (+9.9)
Natural Questions	45.1%	45.3%	49.3% (+4.2)
HotpotQA	62.0%	62.1%	64.1% (+2.1)
SimpleQA	78.5%	78.6%	79.2% (+0.6)
StrategyQA	55.0%	55.1%	58.0% (+3.0)

关键要点

单独使用 “逐步思考” 提示即可在事实回忆上获得统计显著的提升，证实模型已经具备推理能力，只是需要正确的触发方式。
在单一知识密集任务（TriviaQA）上进行 RL 微调能够迁移到其他 QA 领域，表明模型学习到更具通用性的推理策略，以访问其存储的事实。
改进在相对较小的计算预算下即可实现，使该方法对现有大语言模型部署具有实用性。

实际影响

更好的知识驱动助手: 依赖 LLM 提供事实答案的部署（例如客服机器人、文档搜索）可以采用简单的 “逐步思考” 提示，在不更改模型的情况下提升准确性。
低成本微调: 企业可以在专有知识库（或公开基准）上运行一次短时的 RL 微调任务，使模型学会对内部事实进行推理，从而提升可靠性，而无需外部检索系统。
混合检索增强流水线: 即使使用外部搜索，能够在内部对参数化知识进行推理的模型也可能减少所需的检索调用次数，降低延迟和 API 成本。
安全性与幻觉降低: 通过在回答前鼓励显式推理，模型更不容易产生无依据的陈述，这是朝着更可信的 AI 助手迈出的重要一步。

限制与未来工作

奖励简化: 二元正确性奖励并未惩罚过于冗长或无关的推理链；更细致的奖励（例如，思考链的忠实度）可能进一步提升质量。
领域覆盖: 强化学习微调是在英文问答上进行的；扩展到多语言或高度专业化领域（医学、法律）可能需要领域特定的奖励设计。
可扩展性: 虽然该方法在适度算力下即可运行，但在规模最大的语言模型（数千亿参数）上进行扩展可能会在 PPO 中引入稳定性挑战。
长篇推理: 本研究聚焦于短问答；未来工作可以探讨相同的训练方案是否对开放式生成任务（如摘要或代码解释）同样有效。

底线: 只需对提示进行微小调整并进行一次简短的强化学习微调，就能释放语言模型对自身存储事实进行推理的潜在能力，在一系列知识密集型任务上实现可衡量的提升。对于构建 AI 驱动产品的开发者而言，这意味着更高的答案准确率、更少的幻觉现象，以及一条成本效益高的通往更可信系统的道路。

作者

Melody Ma
John Hewitt

论文信息

arXiv ID: 2602.22193v1
分类: cs.CL
出版日期: 2026年2月25日
PDF: 下载 PDF

[Paper] 改进推理语言模型中的参数化知识访问

概述

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] 规模无法克服语用学：报告偏差对 Vision-Language Reasoning 的影响

[Paper] LLM 新手提升在双用途、计算模拟生物学任务中的表现

[Paper] SPARTA：可扩展且原则性的树结构多跳问答文本与表格基准

[Paper] 为什么 Diffusion Language Models 在真正的并行（非自回归）解码上表现不佳？