[Paper] 学习何时停止:Adaptive Latent Reasoning via Reinforcement Learning

发布: (2025年11月27日 GMT+8 00:54)
6 min read
原文: arXiv

Source: arXiv - 2511.21581v1

概览

论文 “Learning When to Stop: Adaptive Latent Reasoning via Reinforcement Learning” 提出了一种让大语言模型(LLM)更高效推理的方法。通过让模型在运行时自行决定进行多少潜在推理步骤,可以在不牺牲答案质量的前提下降低计算量——这对大规模部署 LLM 的用户非常有吸引力。

主要贡献

  • 自适应长度的潜在推理:引入一个强化学习(RL)控制器,学习在获取足够信息后停止推理链。
  • 后 SFT RL 微调:在标准监督微调(SFT)之后使用 RL,直接优化推理长度与任务准确率之间的权衡。
  • 在 1B Llama 3.2 模型上的实证提升:在 GSM8K‑Aug 基准上实现 52 % 的总推理 token 减少,且 准确率不下降
  • 开源发布:提供代码、训练脚本和预训练权重,便于复现和快速采用。

方法论

潜在推理骨干

作者从标准 Transformer 出发,模型不再输出可读的 “思考链” token,而是将内部潜在状态从一个推理步骤传递到下一个。这消除了语言层面 token 化的瓶颈。

RL 控制器

一个轻量的策略网络观察当前潜在状态,并决定是:

  • 继续:执行另一次潜在推理迭代,或
  • 停止:输出最终答案。

策略的奖励平衡两个目标:

  • 准确率奖励(若最终答案与真实答案匹配则为正)。
  • 效率惩罚,与所采取的潜在步骤数成比例。

训练流程

  • 阶段 1:在 GSM8K‑Aug 数据集上进行监督微调(SFT),让模型学习基本的解题能力。
  • 阶段 2:后 SFT RL 微调,使控制器学会在可能时截断推理。

评估

作者同时测量 推理长度(生成的潜在 token 总数)和 任务准确率,并将自适应模型与固定长度基线进行比较。

结果与发现

指标固定长度基线自适应潜在推理
平均推理长度(token)1.84 × 基线0.88 × 基线(≈ 52 % 减少)
准确率(GSM8K‑Aug)78.3 %78.4 %(无统计显著下降)
推理计算量(FLOPs)1.0 × 基线≈ 0.55 × 基线

含义:RL 控制器学会在“简单”问题上提前停止,而在更难的问题上仍保持足够的推理步数,实现了几乎相同的准确率,却只用了约一半的计算预算。

实际意义

  • 生产 LLM 服务的成本节约——将潜在步骤数减半直接转化为更低的 GPU 使用率和更快的响应时间,这对 SaaS API 和端侧推理至关重要。
  • 动态推理预算——开发者可以设定最大延迟或能耗预算,自适应控制器会在可能时自动缩短推理。
  • 边缘设备的可扩展推理——该方法与模型无关;将其应用于更小、量化后的模型,有望在手机或物联网硬件上实现复杂推理。
  • 简化流水线——因为 RL 微调发生在标准 SFT 之后,已有的微调模型可以在不从头训练的情况下升级。

局限性与未来工作

  • 模型规模与数据集范围——实验仅限于 1 B 参数的 Llama 3.2 模型和单一数学数据集(GSM8K‑Aug),在更大模型或更广任务上可能表现不同。
  • 奖励设计的敏感性——准确率与效率之间的平衡依赖超参数;设置不当可能导致过度裁剪推理或浪费计算。
  • 可解释性——潜在推理步骤不可人类阅读,调试或审计更具挑战。

作者提出的未来方向 包括将该方法扩展到其他 LLM 系列,探索不同的 RL 奖励形式,测试架构变体(如更深的潜在模块),以及结合知识蒸馏流水线进一步压缩推理能力。

作者

  • Alex Ning
  • Yen-Ling Kuo
  • Gabe Gomes

论文信息

  • arXiv ID: 2511.21581v1
  • 分类: cs.LG
  • 发布日期: 2025 年 11 月 26 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »