[Paper] InftyThink+: 有效且高效的无限时域推理通过强化学习
发布: (2026年2月7日 GMT+8 02:59)
8 分钟阅读
原文: arXiv
抱歉,我目前无法直接访问外部链接获取文档内容。请您把需要翻译的文本粘贴到这里,我会帮您将其翻译成简体中文,并保留原始的格式、Markdown 语法以及技术术语。谢谢!
概述
论文 InftyThink+ 解决了大型语言模型(LLM)在处理长篇多步骤问题时的核心瓶颈:在提示中保留每个中间“思考”会导致成本呈二次增长,触及上下文长度限制,并且常常导致模型“忘记”早期步骤。通过将推理过程框定为可控的迭代循环——模型决定何时将当前的思考链压缩为摘要再继续——作者展示了强化学习(RL)如何教会 LLM 在无限时间范围内 既高效 又 有效 地进行推理。
关键贡献
- RL 驱动的迭代推理: 引入一个强化学习框架,能够联合学习 何时 摘要、保留什么、以及 如何 继续推理,而不是依赖固定的启发式或监督检查点。
- 两阶段训练流水线: 首先使用监督的“冷启动”让模型具备基本的推理能力,然后在轨迹层面的强化学习下微调整个推理轨迹,以实现策略性摘要。
- 模型控制的迭代边界: 策略学习动态设置迭代边界,使得思考链长度可灵活适配每个问题。
- 在具有挑战性的数学基准上取得实证提升: 使用 DeepSeek‑R1‑Distill‑Qwen‑1.5B 主干,InftyThink+ 在 AIME‑24 上将准确率提升 21 %,并始终优于标准的长思考链强化学习基线。
- 效率提升: 证明可实现高达 ~30 % 的推理延迟降低 以及更快的强化学习收敛,表明更智能的摘要也能加速训练。
- 更好的分布外鲁棒性: 学到的摘要策略相较于静态启发式,对未见过的推理任务具有更好的泛化能力。
方法论
-
迭代推理循环
- LLM 生成一段推理步骤(称为“思考块”)。
- 摘要器 将该块压缩为简洁的表示(短文本摘要)。
- 将压缩后的摘要追加到提示中,模型继续生成下一个块。
-
两阶段训练
- 阶段 1 – 监督预热: 在人工编写的 chain‑of‑thought 数据上训练模型,使其能够生成正确的中间步骤和合理的摘要。
- 阶段 2 – 轨迹级 RL: 将整个循环(生成 → 摘要 → 继续)视为单个 RL 章节。
- 状态: 当前提示(包括累计的摘要)。
- 动作: 决定在摘要之前生成多少步骤以及使用何种摘要策略。
- 奖励: 复合信号,结合最终答案的正确性、推理延迟以及对过长提示的惩罚。
-
策略架构
- 一个轻量级控制器(例如小型 Transformer)位于主干 LLM 之上,输出对可能的迭代长度和摘要模式的分布。
- 使用近端策略优化(PPO)更新控制器,同时对主干 LLM 的参数进行联合微调,使生成与策略决策保持一致。
-
实现细节
- 主干模型: DeepSeek‑R1‑Distill‑Qwen‑1.5B(约 1.5 B 参数)。
- 摘要器: 同样的主干模型,微调后能够生成不超过 30 token 的前块摘要。
- 训练预算: 监督预热约 48 GPU‑小时 + RL 微调约 72 GPU‑小时。
结果与发现
| 基准 | 基线(长 CoT) | InftyThink+ | Δ 准确率 | 推理延迟 ↓ |
|---|---|---|---|---|
| AIME‑24 | 38 % | 59 % | +21 % | ~30 % |
| MATH (OOD) | 45 % | 52 % | +7 % | ~25 % |
| GSM‑8K (OOD) | 71 % | 75 % | +4 % | ~20 % |
- 策略性摘要 在不牺牲逻辑流的前提下缩短提示长度,从而加快推理速度。
- RL 微调收敛所需的 ≈½ 实际时间 相较于普通长 CoT RL 基线更快,得益于更短的轨迹和更清晰的奖励信号。
- 消融实验表明,学习何时进行摘要 对准确率提升贡献最大,而 学习保留哪些信息 主要推动延迟的降低。
实际意义
- 可扩展推理服务: 提供 LLM 推理的云 API(例如代码生成助手、数学辅导机器人)可以采用 InftyThink+ 来降低延迟和成本,尤其是对于原本需要数千 token 的查询。
- 受限内存部署: 边缘设备或本地推理服务器的上下文窗口受限,现在可以通过即时摘要来处理更深层次的推理。
- 改进的基于 RL 的对齐: 轨迹层面的 RL 公式为其他对齐任务提供了模板,这类任务关注过程(而非仅仅最终答案),例如多轮对话规划或逐步调试。
- 工具集成: 现有的思考链流水线可以通过轻量级摘要器和策略头进行改造,复用同一主干模型,从而实现相对低成本的采用。
限制与未来工作
- 摘要器质量依赖性: 如果摘要器遗漏关键的逻辑细节,下游步骤可能会偏离轨道。当前方法依赖同一个大型语言模型进行摘要,这可能会继承其自身的偏见。
- 奖励工程: 复合奖励在准确性与延迟之间进行平衡;为不同领域(例如法律推理与数学)调节这些权重可能需要人工努力。
- 向更大模型的可扩展性: 实验仅限于 1.5 B 参数模型;尚不清楚该方法在 30 B 以上模型上如何扩展,在这些模型中策略学习可能会变得更不稳定。
- 超出数学的泛化能力: 虽然 OOD 数学基准显示出提升,但更广泛的推理领域(例如科学文献综合)仍需专门评估。
未来方向 包括层次化摘要(多层次抽象)、用于领域适应的奖励权重元学习,以及将强化学习循环扩展至整合外部工具(例如计算器或代码解释器),以实现真正的开放式问题求解。
作者
- Yuchen Yan
- Liang Jiang
- Jin Jiang
- Shuaicheng Li
- Zujie Wen
- Zhiqiang Zhang
- Jun Zhou
- Jian Shao
- Yueting Zhuang
- Yongliang Shen
论文信息
- arXiv ID: 2602.06960v1
- 分类: cs.CL, cs.AI
- 出版日期: 2026年2月6日
- PDF: 下载 PDF