[Paper] 边提问边推理：将推理大型语言模型从被动求解器转变为主动询问者

发布: 1周前 (2026年1月30日 GMT+8 02:56)

7 分钟阅读

原文: arXiv

Source: arXiv - 2601.22139v1

概述

本文介绍了 Proactive Interactive Reasoning (PIR)，一种新范式，它将以推理为中心的大型语言模型（LLMs）从被动的“自行思考”系统转变为 主动提问者，在遇到模糊或缺失信息时提出澄清问题。通过将推理与用户交互相结合，PIR 在前提和意图层面处理不确定性——这是传统的 chain‑of‑thought (CoT) 或工具增强方法所未涉及的。

关键贡献

主动交互范式: 将 LLMs 从盲目的自我思考转变为交互循环，在推理步骤与澄清查询之间交错进行。
不确定性感知微调: 一个监督微调阶段，教会模型识别何时信息不足并构造有用的问题。
使用用户模拟器的策略优化: 利用模拟用户训练策略，平衡提问、任务求解和遵循用户意图，依据复合奖励（准确性、效率、用户满意度）进行指导。
广泛的实证验证: 在数学问题求解、代码生成和文档编辑三个领域展示出持续提升，较强基线提升最高达 32.7 % 准确率、22.9 % 通过率 和 41.36 BLEU 分。
效率提升: 将推理计算量削减近 50 %，并减少不必要的交互回合，使系统运行更快、更廉价。
鲁棒的泛化能力: 在分布外任务如事实问答、缺失前提推理和知识不确定性场景中表现出强劲性能。

方法论

不确定性检测
- 首先在一个精心挑选的数据集上微调模型，其中每个推理步骤都标记有“不确定性标记”，指示模型是继续推理还是提出问题。
- 低置信度分数、矛盾证据或缺失变量等特征会触发该标记。
交互式推理循环
- 步骤 1 – 推理： LLM 生成部分推理轨迹。
- 步骤 2 – 评估： 轻量分类器检查不确定性标记。
- 步骤 3 – 查询（如有必要）： 模型生成一个简明的澄清问题，面向用户（或模拟用户）。
- 步骤 4 – 融入答案： 将用户的回复追加到上下文中，模型继续推理。
策略优化
- 用户模拟器 模仿真实回答（包括偶尔的误解），以实现大规模训练而无需人工标注。
- 复合奖励 结合任务准确率、交互轮数以及“用户意图对齐”得分。
- 使用强化学习（如 PPO）更新模型策略，使其在正确的时间提出正确的问题。
评估套件
- 基准覆盖 MATH（符号数学）、HumanEval（代码生成）和 DocEdit（文档编辑）。
- 额外的可靠性测试检验事实正确性以及对缺失前提的处理能力。

结果与发现

域	基线 (CoT)	PIR	准确率 ↑	通过率 ↑	BLEU ↑	推理计算 ↓
Math (MATH)	58.1 %	77.6 %	+32.7 %	—	—	~‑48 %
Code (HumanEval)	45.3 %	58.9 %	+13.6 %	+22.9 %	—	~‑45 %
Document Editing	61.2 %	73.8 %	+12.6 %	—	+41.36	~‑50 %

交互效率： 平均澄清回合数从基线的 3.8 降至 2.1，表明模型学会了提出更少且更具信息量的问题。
泛化能力： 在未见过的事实问答集上，PIR 相较于 CoT 仍保持 +9 % 的准确率提升，说明不确定性感知策略能够迁移到训练域之外。
消融实验： 移除不确定性感知的微调或基于 RL 的策略均导致 10‑15 % 的下降，验证了两者都是必不可少的组成部分。

实际影响

开发者助理： IDE 插件可以嵌入支持 PIR 的大语言模型，在生成代码前向开发者询问缺失的规格（例如，“当输入为空时函数应返回什么？”），从而减少错误和重写。
面向客户的机器人： 支持聊天机器人可以主动澄清模糊的用户请求，提高解决率，减少升级到人工客服的情况。
数据清洗与 ETL 流程： 自动化脚本在遇到缺失字段时可以查询数据所有者，使管道对不完整数据集更具弹性。
教育技术： 辅导系统能够检测学生答案缺少关键前提时，提供有针对性的提示，提升学习效果。
成本节约： 将推理计算量减半直接转化为更低的云推理费用，尤其是在大规模使用（如 70B 参数的大模型）时。

限制与未来工作

User Simulator Fidelity: 当前模拟器可能无法捕捉真实用户响应的全部变异性，可能会对理想交互进行过度优化。
Latency Overhead: 虽然需要的推理步骤更少，但每次交互都会引入往返延迟，可能影响实时应用。
Domain‑Specific Prompting: 不确定性检测的微调是在有限任务集上进行的；扩展到高度专业化领域（例如法律推理）可能需要额外数据。

Future Directions

Incorporate human‑in‑the‑loop 强化学习，以真实用户反馈细化策略。
Explore multi‑turn negotiation 策略，使模型能够根据部分答案自行改进提问。
Combine PIR 与外部工具使用（如计算器、代码解释器）相结合，同时处理知识缺口和前提不确定性。

作者

Xin Chen
Feng Jiang
Yiqian Zhang
Hardy Chen
Shuo Yan
Wenya Xie
Min Yang
Shujian Huang

论文信息

arXiv ID: 2601.22139v1
Categories: cs.CL, cs.AI
Published: 2026年1月29日
PDF: Download PDF

[Paper] 边提问边推理：将推理大型语言模型从被动求解器转变为主动询问者

概述

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

Future Directions

作者

论文信息

相关文章

[Paper] FOCUS：DLLMs 知道如何驯服它们的计算瓶颈

[Paper] 通用语言识别与生成

[Paper] 现在你听见我：针对大型音频语言模型的音频叙事攻击

[Paper] 用过程奖励扩展多智能体系统