[Paper] 学习何时停止:Adaptive Latent Reasoning via Reinforcement Learning
Source: arXiv - 2511.21581v1
概览
论文 “Learning When to Stop: Adaptive Latent Reasoning via Reinforcement Learning” 提出了一种让大语言模型(LLM)更高效推理的方法。通过让模型在运行时自行决定进行多少潜在推理步骤,可以在不牺牲答案质量的前提下降低计算量——这对大规模部署 LLM 的用户非常有吸引力。
主要贡献
- 自适应长度的潜在推理:引入一个强化学习(RL)控制器,学习在获取足够信息后停止推理链。
- 后 SFT RL 微调:在标准监督微调(SFT)之后使用 RL,直接优化推理长度与任务准确率之间的权衡。
- 在 1B Llama 3.2 模型上的实证提升:在 GSM8K‑Aug 基准上实现 52 % 的总推理 token 减少,且 准确率不下降。
- 开源发布:提供代码、训练脚本和预训练权重,便于复现和快速采用。
方法论
潜在推理骨干
作者从标准 Transformer 出发,模型不再输出可读的 “思考链” token,而是将内部潜在状态从一个推理步骤传递到下一个。这消除了语言层面 token 化的瓶颈。
RL 控制器
一个轻量的策略网络观察当前潜在状态,并决定是:
- 继续:执行另一次潜在推理迭代,或
- 停止:输出最终答案。
策略的奖励平衡两个目标:
- 准确率奖励(若最终答案与真实答案匹配则为正)。
- 效率惩罚,与所采取的潜在步骤数成比例。
训练流程
- 阶段 1:在 GSM8K‑Aug 数据集上进行监督微调(SFT),让模型学习基本的解题能力。
- 阶段 2:后 SFT RL 微调,使控制器学会在可能时截断推理。
评估
作者同时测量 推理长度(生成的潜在 token 总数)和 任务准确率,并将自适应模型与固定长度基线进行比较。
结果与发现
| 指标 | 固定长度基线 | 自适应潜在推理 |
|---|---|---|
| 平均推理长度(token) | 1.84 × 基线 | 0.88 × 基线(≈ 52 % 减少) |
| 准确率(GSM8K‑Aug) | 78.3 % | 78.4 %(无统计显著下降) |
| 推理计算量(FLOPs) | 1.0 × 基线 | ≈ 0.55 × 基线 |
含义:RL 控制器学会在“简单”问题上提前停止,而在更难的问题上仍保持足够的推理步数,实现了几乎相同的准确率,却只用了约一半的计算预算。
实际意义
- 生产 LLM 服务的成本节约——将潜在步骤数减半直接转化为更低的 GPU 使用率和更快的响应时间,这对 SaaS API 和端侧推理至关重要。
- 动态推理预算——开发者可以设定最大延迟或能耗预算,自适应控制器会在可能时自动缩短推理。
- 边缘设备的可扩展推理——该方法与模型无关;将其应用于更小、量化后的模型,有望在手机或物联网硬件上实现复杂推理。
- 简化流水线——因为 RL 微调发生在标准 SFT 之后,已有的微调模型可以在不从头训练的情况下升级。
局限性与未来工作
- 模型规模与数据集范围——实验仅限于 1 B 参数的 Llama 3.2 模型和单一数学数据集(GSM8K‑Aug),在更大模型或更广任务上可能表现不同。
- 奖励设计的敏感性——准确率与效率之间的平衡依赖超参数;设置不当可能导致过度裁剪推理或浪费计算。
- 可解释性——潜在推理步骤不可人类阅读,调试或审计更具挑战。
作者提出的未来方向 包括将该方法扩展到其他 LLM 系列,探索不同的 RL 奖励形式,测试架构变体(如更深的潜在模块),以及结合知识蒸馏流水线进一步压缩推理能力。
作者
- Alex Ning
- Yen-Ling Kuo
- Gabe Gomes
论文信息
- arXiv ID: 2511.21581v1
- 分类: cs.LG
- 发布日期: 2025 年 11 月 26 日
- PDF: Download PDF