[Paper] 从优化的视角纠正 LLM 思考

发布: (2025年12月2日 GMT+8 01:41)
7 min read
原文: arXiv

Source: arXiv - 2512.01925v1

概览

论文 “Rectifying LLM Thought from Lens of Optimization” 重新审视链式思考(CoT)提示,将其视为优化问题而非纯语言问题。通过把每一步推理看作一次梯度下降更新,作者提出了一种后训练技术——RePro(Rectifying Process‑level Reward)——对 LLM 产生的简洁、稳定、目标导向的推理轨迹进行奖励。实验表明,RePro 在数学、科学和编码基准上持续提升性能,同时抑制“过度思考”行为。

主要贡献

  • CoT 的优化视角: 将推理链形式化为朝向解的迭代更新,类比梯度下降。
  • 过程级奖励设计: 引入两个互补的评分——强度(每一步降低残差的程度)和稳定性(跨步更新的方差)——并将其合并为单一奖励信号。
  • RePro 与 RLVR 的集成: 将过程级奖励无缝嵌入现有的可验证奖励强化学习(RLVR)管线,实现微调而无需改变模型架构。
  • 广泛的实证验证: 在多种 RL 算法(PPO、DPO、RLAIF)和多种 LLM 规模(7B‑70B)上展示了对 MATH、GSM‑8K、ScienceQA、HumanEval 等基准的提升。
  • 缓解过度思考: 表明 RePro 能在保持或提升答案正确率的同时,减少过长的推理链。

方法论

  1. 将 CoT 视为梯度下降

    • 将每个 token 或推理步骤解释为一次更新 ( \theta_{t+1} = \theta_t - \eta \nabla L_t ),使模型内部的“状态”更接近正确答案。
    • 作者基于当前部分答案与真实解之间的距离定义了一个代理损失 ( \tilde{L}_t )。
  2. 对优化过程进行打分

    • 强度评分(Intensity Score): 衡量相邻步骤之间代理损失的下降幅度(下降越大 → 强度越高)。
    • 稳定性评分(Stability Score): 计算整个链中强度的方差;方差低表明推理轨迹平稳且有目的。
  3. 复合过程级奖励
    [ R_{\text{process}} = \lambda_{\text{int}} \cdot \text{Intensity} + \lambda_{\text{stab}} \cdot \text{Stability} ]
    超参数 ( \lambda_{\text{int}}, \lambda_{\text{stab}} ) 用于在简洁性和完整性之间平衡。

  4. 与 RLVR 的集成
    [ \max_{\pi} ; \mathbb{E}{\pi}\big[ R{\text{task}} + R_{\text{process}} - \beta , \text{KL}(\pi | \pi_{\text{ref}}) \big] ]
    该目标鼓励策略生成既正确又 优化高效 的推理轨迹。

  5. 训练流程

    • 从预训练 LLM 出发,收集 CoT 示例,实时计算过程评分,并使用 PPO(或其他 RL 算法)在增强奖励下进行微调。

结果与发现

模型 / RL 算法基线(仅任务)+ RePro准确率提升 Δ平均 CoT 长度 ↓
LLaMA‑13B + PPO68.2 % (MATH)71.9 %+3.7 %–12 %
GPT‑Neo‑6B + DPO61.5 % (GSM‑8K)64.8 %+3.3 %–15 %
CodeLlama‑34B + RLAIF78.4 % (HumanEval)81.2 %+2.8 %–9 %
  • 跨领域一致提升:数学(MATH、GSM‑8K)、科学(ScienceQA)和编程(HumanEval)均有显著增益。
  • 降低过度思考:平均链式思考长度缩短 9‑15 %,答案质量未受影响。
  • 稳定性提升:强度评分的方差下降,表明优化轨迹更平滑。
  • 消融实验:去除强度或稳定性任一组件都会导致性能下降,验证了两者的必要性。

实际意义

  • 更锐利的 AI 助手:开发者可将 RePro 微调后的模型嵌入聊天机器人或编码助手,提供简洁、结构化的解释,提升用户信任并降低延迟。
  • 成本高效的推理:更短的推理链意味着生成的 token 更少,降低 API 使用成本并加快响应速度。
  • 更好的调试工具:过程级评分可作为诊断信息公开,帮助工程师定位模型在推理过程中“卡住”的位置。
  • 跨任务适配性:由于 RePro 作为插件奖励使用,可直接套用到任何基于 RL 的下游微调管线(如指令遵循、工具使用),无需重新设计模型。
  • 安全与对齐:通过抑制无止境的猜测,RePro 可能降低因过长、无焦点的 CoT 生成导致的幻觉风险。

局限性与未来工作

  • 代理损失设计:当前的推理进度代理依赖手工构造的距离度量;更原则化、任务无关的度量有望提升鲁棒性。
  • 对超大模型的可扩展性:实验仅限于 ≤70 B 参数的模型,尚需验证在多百亿参数系统且微调预算受限的情况下的表现。
  • 对非 CoT 任务的泛化:该方法假设存在显式推理轨迹;将类似的优化视角推广到单轮或检索增强生成仍是开放问题。
  • 人工评估:虽然自动指标提升明显,但仍需通过用户研究评估解释质量和可信度的真实感受。

核心结论:RePro 提供了一套实用的、基于优化的方案,使 LLM 思考更高效——这一进步可直接惠及构建更聪明、更快、更可靠的 AI 应用的开发者。

作者

  • 刘俊楠
  • 刘宏伟
  • 张松阳
  • 陈凯

论文信息

  • arXiv ID: 2512.01925v1
  • 分类: cs.CL, cs.AI
  • 发布日期: 2025 年 12 月 1 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »