[Paper] 从优化的视角纠正 LLM 思考
Source: arXiv - 2512.01925v1
概览
论文 “Rectifying LLM Thought from Lens of Optimization” 重新审视链式思考(CoT)提示,将其视为优化问题而非纯语言问题。通过把每一步推理看作一次梯度下降更新,作者提出了一种后训练技术——RePro(Rectifying Process‑level Reward)——对 LLM 产生的简洁、稳定、目标导向的推理轨迹进行奖励。实验表明,RePro 在数学、科学和编码基准上持续提升性能,同时抑制“过度思考”行为。
主要贡献
- CoT 的优化视角: 将推理链形式化为朝向解的迭代更新,类比梯度下降。
- 过程级奖励设计: 引入两个互补的评分——强度(每一步降低残差的程度)和稳定性(跨步更新的方差)——并将其合并为单一奖励信号。
- RePro 与 RLVR 的集成: 将过程级奖励无缝嵌入现有的可验证奖励强化学习(RLVR)管线,实现微调而无需改变模型架构。
- 广泛的实证验证: 在多种 RL 算法(PPO、DPO、RLAIF)和多种 LLM 规模(7B‑70B)上展示了对 MATH、GSM‑8K、ScienceQA、HumanEval 等基准的提升。
- 缓解过度思考: 表明 RePro 能在保持或提升答案正确率的同时,减少过长的推理链。
方法论
-
将 CoT 视为梯度下降
- 将每个 token 或推理步骤解释为一次更新 ( \theta_{t+1} = \theta_t - \eta \nabla L_t ),使模型内部的“状态”更接近正确答案。
- 作者基于当前部分答案与真实解之间的距离定义了一个代理损失 ( \tilde{L}_t )。
-
对优化过程进行打分
- 强度评分(Intensity Score): 衡量相邻步骤之间代理损失的下降幅度(下降越大 → 强度越高)。
- 稳定性评分(Stability Score): 计算整个链中强度的方差;方差低表明推理轨迹平稳且有目的。
-
复合过程级奖励
[ R_{\text{process}} = \lambda_{\text{int}} \cdot \text{Intensity} + \lambda_{\text{stab}} \cdot \text{Stability} ]
超参数 ( \lambda_{\text{int}}, \lambda_{\text{stab}} ) 用于在简洁性和完整性之间平衡。 -
与 RLVR 的集成
[ \max_{\pi} ; \mathbb{E}{\pi}\big[ R{\text{task}} + R_{\text{process}} - \beta , \text{KL}(\pi | \pi_{\text{ref}}) \big] ]
该目标鼓励策略生成既正确又 优化高效 的推理轨迹。 -
训练流程
- 从预训练 LLM 出发,收集 CoT 示例,实时计算过程评分,并使用 PPO(或其他 RL 算法)在增强奖励下进行微调。
结果与发现
| 模型 / RL 算法 | 基线(仅任务) | + RePro | 准确率提升 Δ | 平均 CoT 长度 ↓ |
|---|---|---|---|---|
| LLaMA‑13B + PPO | 68.2 % (MATH) | 71.9 % | +3.7 % | –12 % |
| GPT‑Neo‑6B + DPO | 61.5 % (GSM‑8K) | 64.8 % | +3.3 % | –15 % |
| CodeLlama‑34B + RLAIF | 78.4 % (HumanEval) | 81.2 % | +2.8 % | –9 % |
- 跨领域一致提升:数学(MATH、GSM‑8K)、科学(ScienceQA)和编程(HumanEval)均有显著增益。
- 降低过度思考:平均链式思考长度缩短 9‑15 %,答案质量未受影响。
- 稳定性提升:强度评分的方差下降,表明优化轨迹更平滑。
- 消融实验:去除强度或稳定性任一组件都会导致性能下降,验证了两者的必要性。
实际意义
- 更锐利的 AI 助手:开发者可将 RePro 微调后的模型嵌入聊天机器人或编码助手,提供简洁、结构化的解释,提升用户信任并降低延迟。
- 成本高效的推理:更短的推理链意味着生成的 token 更少,降低 API 使用成本并加快响应速度。
- 更好的调试工具:过程级评分可作为诊断信息公开,帮助工程师定位模型在推理过程中“卡住”的位置。
- 跨任务适配性:由于 RePro 作为插件奖励使用,可直接套用到任何基于 RL 的下游微调管线(如指令遵循、工具使用),无需重新设计模型。
- 安全与对齐:通过抑制无止境的猜测,RePro 可能降低因过长、无焦点的 CoT 生成导致的幻觉风险。
局限性与未来工作
- 代理损失设计:当前的推理进度代理依赖手工构造的距离度量;更原则化、任务无关的度量有望提升鲁棒性。
- 对超大模型的可扩展性:实验仅限于 ≤70 B 参数的模型,尚需验证在多百亿参数系统且微调预算受限的情况下的表现。
- 对非 CoT 任务的泛化:该方法假设存在显式推理轨迹;将类似的优化视角推广到单轮或检索增强生成仍是开放问题。
- 人工评估:虽然自动指标提升明显,但仍需通过用户研究评估解释质量和可信度的真实感受。
核心结论:RePro 提供了一套实用的、基于优化的方案,使 LLM 思考更高效——这一进步可直接惠及构建更聪明、更快、更可靠的 AI 应用的开发者。
作者
- 刘俊楠
- 刘宏伟
- 张松阳
- 陈凯
论文信息
- arXiv ID: 2512.01925v1
- 分类: cs.CL, cs.AI
- 发布日期: 2025 年 12 月 1 日
- PDF: Download PDF