[Paper] 边提问边推理:将推理大型语言模型从被动求解器转变为主动询问者

发布: (2026年1月30日 GMT+8 02:56)
7 分钟阅读
原文: arXiv

Source: arXiv - 2601.22139v1

概述

本文介绍了 Proactive Interactive Reasoning (PIR),一种新范式,它将以推理为中心的大型语言模型(LLMs)从被动的“自行思考”系统转变为 主动提问者,在遇到模糊或缺失信息时提出澄清问题。通过将推理与用户交互相结合,PIR 在前提和意图层面处理不确定性——这是传统的 chain‑of‑thought (CoT) 或工具增强方法所未涉及的。

关键贡献

  • 主动交互范式: 将 LLMs 从盲目的自我思考转变为交互循环,在推理步骤与澄清查询之间交错进行。
  • 不确定性感知微调: 一个监督微调阶段,教会模型识别何时信息不足并构造有用的问题。
  • 使用用户模拟器的策略优化: 利用模拟用户训练策略,平衡提问、任务求解和遵循用户意图,依据复合奖励(准确性、效率、用户满意度)进行指导。
  • 广泛的实证验证: 在数学问题求解、代码生成和文档编辑三个领域展示出持续提升,较强基线提升最高达 32.7 % 准确率22.9 % 通过率41.36 BLEU 分。
  • 效率提升: 将推理计算量削减近 50 %,并减少不必要的交互回合,使系统运行更快、更廉价。
  • 鲁棒的泛化能力: 在分布外任务如事实问答、缺失前提推理和知识不确定性场景中表现出强劲性能。

方法论

  1. 不确定性检测

    • 首先在一个精心挑选的数据集上微调模型,其中每个推理步骤都标记有“不确定性标记”,指示模型是继续推理还是提出问题。
    • 低置信度分数、矛盾证据或缺失变量等特征会触发该标记。
  2. 交互式推理循环

    • 步骤 1 – 推理: LLM 生成部分推理轨迹。
    • 步骤 2 – 评估: 轻量分类器检查不确定性标记。
    • 步骤 3 – 查询(如有必要): 模型生成一个简明的澄清问题,面向用户(或模拟用户)。
    • 步骤 4 – 融入答案: 将用户的回复追加到上下文中,模型继续推理。
  3. 策略优化

    • 用户模拟器 模仿真实回答(包括偶尔的误解),以实现大规模训练而无需人工标注。
    • 复合奖励 结合任务准确率、交互轮数以及“用户意图对齐”得分。
    • 使用强化学习(如 PPO)更新模型策略,使其在正确的时间提出正确的问题
  4. 评估套件

    • 基准覆盖 MATH(符号数学)、HumanEval(代码生成)和 DocEdit(文档编辑)。
    • 额外的可靠性测试检验事实正确性以及对缺失前提的处理能力。

结果与发现

基线 (CoT)PIR准确率 ↑通过率 ↑BLEU ↑推理计算 ↓
Math (MATH)58.1 %77.6 %+32.7 %~‑48 %
Code (HumanEval)45.3 %58.9 %+13.6 %+22.9 %~‑45 %
Document Editing61.2 %73.8 %+12.6 %+41.36~‑50 %
  • 交互效率: 平均澄清回合数从基线的 3.8 降至 2.1,表明模型学会了提出更少且更具信息量的问题。
  • 泛化能力: 在未见过的事实问答集上,PIR 相较于 CoT 仍保持 +9 % 的准确率提升,说明不确定性感知策略能够迁移到训练域之外。
  • 消融实验: 移除不确定性感知的微调或基于 RL 的策略均导致 10‑15 % 的下降,验证了两者都是必不可少的组成部分。

实际影响

  • 开发者助理: IDE 插件可以嵌入支持 PIR 的大语言模型,在生成代码前向开发者询问缺失的规格(例如,“当输入为空时函数应返回什么?”),从而减少错误和重写。
  • 面向客户的机器人: 支持聊天机器人可以主动澄清模糊的用户请求,提高解决率,减少升级到人工客服的情况。
  • 数据清洗与 ETL 流程: 自动化脚本在遇到缺失字段时可以查询数据所有者,使管道对不完整数据集更具弹性。
  • 教育技术: 辅导系统能够检测学生答案缺少关键前提时,提供有针对性的提示,提升学习效果。
  • 成本节约: 将推理计算量减半直接转化为更低的云推理费用,尤其是在大规模使用(如 70B 参数的大模型)时。

限制与未来工作

  • User Simulator Fidelity: 当前模拟器可能无法捕捉真实用户响应的全部变异性,可能会对理想交互进行过度优化。
  • Latency Overhead: 虽然需要的推理步骤更少,但每次交互都会引入往返延迟,可能影响实时应用。
  • Domain‑Specific Prompting: 不确定性检测的微调是在有限任务集上进行的;扩展到高度专业化领域(例如法律推理)可能需要额外数据。

Future Directions

  • Incorporate human‑in‑the‑loop 强化学习,以真实用户反馈细化策略。
  • Explore multi‑turn negotiation 策略,使模型能够根据部分答案自行改进提问。
  • Combine PIR 与外部工具使用(如计算器、代码解释器)相结合,同时处理知识缺口和前提不确定性。

作者

  • Xin Chen
  • Feng Jiang
  • Yiqian Zhang
  • Hardy Chen
  • Shuo Yan
  • Wenya Xie
  • Min Yang
  • Shujian Huang

论文信息

  • arXiv ID: 2601.22139v1
  • Categories: cs.CL, cs.AI
  • Published: 2026年1月29日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »