[Paper] 边提问边推理:将推理大型语言模型从被动求解器转变为主动询问者
发布: (2026年1月30日 GMT+8 02:56)
7 分钟阅读
原文: arXiv
Source: arXiv - 2601.22139v1
概述
本文介绍了 Proactive Interactive Reasoning (PIR),一种新范式,它将以推理为中心的大型语言模型(LLMs)从被动的“自行思考”系统转变为 主动提问者,在遇到模糊或缺失信息时提出澄清问题。通过将推理与用户交互相结合,PIR 在前提和意图层面处理不确定性——这是传统的 chain‑of‑thought (CoT) 或工具增强方法所未涉及的。
关键贡献
- 主动交互范式: 将 LLMs 从盲目的自我思考转变为交互循环,在推理步骤与澄清查询之间交错进行。
- 不确定性感知微调: 一个监督微调阶段,教会模型识别何时信息不足并构造有用的问题。
- 使用用户模拟器的策略优化: 利用模拟用户训练策略,平衡提问、任务求解和遵循用户意图,依据复合奖励(准确性、效率、用户满意度)进行指导。
- 广泛的实证验证: 在数学问题求解、代码生成和文档编辑三个领域展示出持续提升,较强基线提升最高达 32.7 % 准确率、22.9 % 通过率 和 41.36 BLEU 分。
- 效率提升: 将推理计算量削减近 50 %,并减少不必要的交互回合,使系统运行更快、更廉价。
- 鲁棒的泛化能力: 在分布外任务如事实问答、缺失前提推理和知识不确定性场景中表现出强劲性能。
方法论
-
不确定性检测
- 首先在一个精心挑选的数据集上微调模型,其中每个推理步骤都标记有“不确定性标记”,指示模型是继续推理还是提出问题。
- 低置信度分数、矛盾证据或缺失变量等特征会触发该标记。
-
交互式推理循环
- 步骤 1 – 推理: LLM 生成部分推理轨迹。
- 步骤 2 – 评估: 轻量分类器检查不确定性标记。
- 步骤 3 – 查询(如有必要): 模型生成一个简明的澄清问题,面向用户(或模拟用户)。
- 步骤 4 – 融入答案: 将用户的回复追加到上下文中,模型继续推理。
-
策略优化
- 用户模拟器 模仿真实回答(包括偶尔的误解),以实现大规模训练而无需人工标注。
- 复合奖励 结合任务准确率、交互轮数以及“用户意图对齐”得分。
- 使用强化学习(如 PPO)更新模型策略,使其在正确的时间提出正确的问题。
-
评估套件
- 基准覆盖 MATH(符号数学)、HumanEval(代码生成)和 DocEdit(文档编辑)。
- 额外的可靠性测试检验事实正确性以及对缺失前提的处理能力。
结果与发现
| 域 | 基线 (CoT) | PIR | 准确率 ↑ | 通过率 ↑ | BLEU ↑ | 推理计算 ↓ |
|---|---|---|---|---|---|---|
| Math (MATH) | 58.1 % | 77.6 % | +32.7 % | — | — | ~‑48 % |
| Code (HumanEval) | 45.3 % | 58.9 % | +13.6 % | +22.9 % | — | ~‑45 % |
| Document Editing | 61.2 % | 73.8 % | +12.6 % | — | +41.36 | ~‑50 % |
- 交互效率: 平均澄清回合数从基线的 3.8 降至 2.1,表明模型学会了提出更少且更具信息量的问题。
- 泛化能力: 在未见过的事实问答集上,PIR 相较于 CoT 仍保持 +9 % 的准确率提升,说明不确定性感知策略能够迁移到训练域之外。
- 消融实验: 移除不确定性感知的微调或基于 RL 的策略均导致 10‑15 % 的下降,验证了两者都是必不可少的组成部分。
实际影响
- 开发者助理: IDE 插件可以嵌入支持 PIR 的大语言模型,在生成代码前向开发者询问缺失的规格(例如,“当输入为空时函数应返回什么?”),从而减少错误和重写。
- 面向客户的机器人: 支持聊天机器人可以主动澄清模糊的用户请求,提高解决率,减少升级到人工客服的情况。
- 数据清洗与 ETL 流程: 自动化脚本在遇到缺失字段时可以查询数据所有者,使管道对不完整数据集更具弹性。
- 教育技术: 辅导系统能够检测学生答案缺少关键前提时,提供有针对性的提示,提升学习效果。
- 成本节约: 将推理计算量减半直接转化为更低的云推理费用,尤其是在大规模使用(如 70B 参数的大模型)时。
限制与未来工作
- User Simulator Fidelity: 当前模拟器可能无法捕捉真实用户响应的全部变异性,可能会对理想交互进行过度优化。
- Latency Overhead: 虽然需要的推理步骤更少,但每次交互都会引入往返延迟,可能影响实时应用。
- Domain‑Specific Prompting: 不确定性检测的微调是在有限任务集上进行的;扩展到高度专业化领域(例如法律推理)可能需要额外数据。
Future Directions
- Incorporate human‑in‑the‑loop 强化学习,以真实用户反馈细化策略。
- Explore multi‑turn negotiation 策略,使模型能够根据部分答案自行改进提问。
- Combine PIR 与外部工具使用(如计算器、代码解释器)相结合,同时处理知识缺口和前提不确定性。
作者
- Xin Chen
- Feng Jiang
- Yiqian Zhang
- Hardy Chen
- Shuo Yan
- Wenya Xie
- Min Yang
- Shujian Huang
论文信息
- arXiv ID: 2601.22139v1
- Categories: cs.CL, cs.AI
- Published: 2026年1月29日
- PDF: Download PDF