[Paper] 学习何时停止：Adaptive Latent Reasoning via Reinforcement Learning

发布: 2个月前 (2025年11月27日 GMT+8 00:54)

6 分钟阅读

原文: arXiv

Source: arXiv - 2511.21581v1

概览

论文 “Learning When to Stop: Adaptive Latent Reasoning via Reinforcement Learning” 提出了一种让大语言模型（LLM）更高效推理的方法。通过让模型在运行时自行决定进行多少潜在推理步骤，可以在不牺牲答案质量的前提下降低计算量——这对大规模部署 LLM 的用户非常有吸引力。

主要贡献

自适应长度的潜在推理：引入一个强化学习（RL）控制器，学习在获取足够信息后停止推理链。
后 SFT RL 微调：在标准监督微调（SFT）之后使用 RL，直接优化推理长度与任务准确率之间的权衡。
在 1B Llama 3.2 模型上的实证提升：在 GSM8K‑Aug 基准上实现 52 % 的总推理 token 减少，且 准确率不下降。
开源发布：提供代码、训练脚本和预训练权重，便于复现和快速采用。

方法论

潜在推理骨干

作者从标准 Transformer 出发，模型不再输出可读的 “思考链” token，而是将内部潜在状态从一个推理步骤传递到下一个。这消除了语言层面 token 化的瓶颈。

RL 控制器

一个轻量的策略网络观察当前潜在状态，并决定是：

继续：执行另一次潜在推理迭代，或
停止：输出最终答案。

策略的奖励平衡两个目标：

准确率奖励（若最终答案与真实答案匹配则为正）。
效率惩罚，与所采取的潜在步骤数成比例。

训练流程

阶段 1：在 GSM8K‑Aug 数据集上进行监督微调（SFT），让模型学习基本的解题能力。
阶段 2：后 SFT RL 微调，使控制器学会在可能时截断推理。

评估

作者同时测量 推理长度（生成的潜在 token 总数）和 任务准确率，并将自适应模型与固定长度基线进行比较。

结果与发现

指标	固定长度基线	自适应潜在推理
平均推理长度（token）	1.84 × 基线	0.88 × 基线（≈ 52 % 减少）
准确率（GSM8K‑Aug）	78.3 %	78.4 %（无统计显著下降）
推理计算量（FLOPs）	1.0 × 基线	≈ 0.55 × 基线

含义：RL 控制器学会在“简单”问题上提前停止，而在更难的问题上仍保持足够的推理步数，实现了几乎相同的准确率，却只用了约一半的计算预算。

实际意义

生产 LLM 服务的成本节约——将潜在步骤数减半直接转化为更低的 GPU 使用率和更快的响应时间，这对 SaaS API 和端侧推理至关重要。
动态推理预算——开发者可以设定最大延迟或能耗预算，自适应控制器会在可能时自动缩短推理。
边缘设备的可扩展推理——该方法与模型无关；将其应用于更小、量化后的模型，有望在手机或物联网硬件上实现复杂推理。
简化流水线——因为 RL 微调发生在标准 SFT 之后，已有的微调模型可以在不从头训练的情况下升级。

局限性与未来工作

模型规模与数据集范围——实验仅限于 1 B 参数的 Llama 3.2 模型和单一数学数据集（GSM8K‑Aug），在更大模型或更广任务上可能表现不同。
奖励设计的敏感性——准确率与效率之间的平衡依赖超参数；设置不当可能导致过度裁剪推理或浪费计算。
可解释性——潜在推理步骤不可人类阅读，调试或审计更具挑战。

作者提出的未来方向 包括将该方法扩展到其他 LLM 系列，探索不同的 RL 奖励形式，测试架构变体（如更深的潜在模块），以及结合知识蒸馏流水线进一步压缩推理能力。

作者

Alex Ning
Yen-Ling Kuo
Gabe Gomes

论文信息

arXiv ID: 2511.21581v1
分类: cs.LG
发布日期: 2025 年 11 月 26 日
PDF: Download PDF

[Paper] 学习何时停止：Adaptive Latent Reasoning via Reinforcement Learning

概览

主要贡献

方法论

潜在推理骨干

RL 控制器

训练流程

评估

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] 思考即行动：通过多轮交互在 LLM 中构建高效的 World Model 推理

[Paper] ThetaEvolve：测试时学习在开放问题上

[Paper] 进步的代价：算法效率与 AI 推理成本下降

[Paper] Physics-Informed Neural Networks 用于热物性属性检索