[Paper] 逐步 Think-Critique：稳健且可解释的 LLM 推理的统一框架

发布: 1个月前 (2025年12月18日 GMT+8 02:15)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.15662v1

概述

本文介绍了 Stepwise Think‑Critique (STC)，一种新的训练框架，使单一的大型语言模型（LLM）能够一步步同时进行推理和 自我评估。通过在每一次推理过程中加入“批评”阶段，STC 模仿人类迭代检查自己思路的方式，从而实现更可靠、更透明的问题求解——尤其在困难的数学和逻辑任务上表现突出。

关键贡献

统一的推理‑与‑批评循环： STC 在同一模型内部交替进行“思考”步骤（生成推理片段）和“批评”步骤（自我检查该片段），消除了对独立验证模块的需求。
混合强化学习目标： 作者将标准的推理奖励（最终答案的正确性）与 批评一致性 奖励相结合，鼓励模型的自我批评与最终结果保持一致。
可解释性提升： 交替的思考/批评轨迹可供人类阅读，便于调试模型成功或失败的原因。
显著的实证提升： 在多个数学推理基准（如 GSM8K、MATH）上，STC 超越了使用纯链式思考提示或事后验证的强基线。
“批判性思维”大模型的概念验证： 证明单一模型能够在没有外部工具的情况下学习评估自己的推理，这是迈向更自主 AI 助手的重要一步。

方法论

提示设计： 每一次推理轮次被拆分为两个子提示：
- Think（思考）: “生成解决问题的下一步推理。”
- Critique（批评）: “检查刚生成的步骤是否存在逻辑错误、遗漏或矛盾。”
  模型在上下文中同时接收问题陈述以及之前的 think/critique 对。
训练数据： 作者构建了一个合成数据集，对每个解答标注了正确的推理步骤以及对应的人类撰写的批评。
混合 RL 微调：
- 推理奖励 (R₁)： 当最终答案与真实答案匹配时为正。
- 批评一致性奖励 (R₂)： 当模型的批评能够正确预测当前步骤是否会导致正确的最终答案时为正。
- 总奖励为加权和 R = λ·R₁ + (1‑λ)·R₂。使用近端策略优化（PPO）来更新模型。
推理： 在测试时模型在 think 与 critique 之间交替进行，直至输出 STOP 标记，然后给出最终答案。无需外部验证器。

结果与发现

Benchmark	Baseline (Chain‑of‑Thought)	Baseline + Post‑hoc Verifier	STC
GSM8K	71.2 %	73.8 %	78.5 %
MATH (level‑1)	38.4 %	41.1 %	46.9 %
MATH (level‑2)	21.7 %	24.3 %	30.2 %

更高的准确率： STC 始终优于纯推理和推理‑加‑验证器的流水线，尤其在需要逐步自检的更难题目上表现最为突出。
更易解释的推理过程： 人类评估者认为 STC 的推理日志比标准 Chain‑of‑Thought 模型更清晰、更易于跟随。
对提示变化的鲁棒性： 由于批评机制是联合学习的，模型对提示中细微措辞变化的敏感度更低。

实际影响

更简洁的 AI 堆栈: 开发者可以用单个支持 STC 的模型替代两模型架构（推理器 + 外部验证器），从而降低延迟、内存占用和工程开销。
可调试的助手: 思考‑批评记录相当于内置审计日志，帮助工程师定位模型出错的环节，无需额外的追踪工具。
更安全的代码生成与数据分析: 批判性思维循环可应用于任何需要逐步正确性的领域，例如生成 SQL 查询、构造 API 调用或在科学笔记本中进行符号数学计算。
更佳的用户体验: 可以向终端用户展示模型的自我批评，提升信任度（例如，“我认为这一步可能有误，因为 …”）。
自主代理的基础: 未来的代理在规划和行动时可以嵌入 STC 风格的自我评估，以在执行前捕捉规划错误，降低代价高昂的失误风险。

限制与未来工作

训练数据瓶颈： 当前方法依赖于对每个推理步骤进行人工标注的批评，这在扩展到更广泛领域时成本高昂。
计算成本： 交替的思考/批评会使每个推理步骤的前向传播次数翻倍，与单一思考链相比会增加延迟。
领域迁移： 实验主要集中在数学上；STC 在非数值推理（例如法律推理、代码合成）上的泛化能力仍有待验证。
未来方向： 作者建议探索 自生成 批评（在没有人工标签的情况下自举）、针对更长推理链的课程学习，以及将 STC 与工具使用 API（例如计算器、代码解释器）结合，以进一步提升鲁棒性。

作者

Jiaqi Xu
Cuiling Lan
Xuejin Chen
Yan LU

论文信息

arXiv ID: 2512.15662v1
分类: cs.AI
发布时间: 2025年12月17日
PDF: 下载 PDF

相关文章

阅读更多 »

[Paper] Re-Depth Anything: 测试时深度细化通过自监督再照明

单目深度估计仍然具有挑战性，因为最近的基础模型，如 Depth Anything V2 (DA-V2)，在处理与真实世界图像相差甚远的情况时表现不佳。

[Paper] 开放基础模型中视觉的对抗鲁棒性

随着深度学习的提升，理解 AI 系统能够识别对象的模型变得越来越困难。因此，对手可能会……

[Paper] 当推理遇到其法则

尽管 Large Reasoning Models (LRMs) 的卓越性能，其推理行为常常违背直觉，导致推理能力次优……

[Paper] 分布鲁棒模仿学习：用于可认证自主性的层次控制架构

模仿学习（Imitation learning，IL）通过从专家示范中学习，实现自主行为。相较于诸如强化学习（reinforcement learning）等比较的替代方法，它在样本效率上更高。