[Paper] InftyThink+: 有效且高效的无限时域推理通过强化学习

发布: 3天前 (2026年2月7日 GMT+8 02:59)

8 分钟阅读

原文: arXiv

抱歉，我目前无法直接访问外部链接获取文档内容。请您把需要翻译的文本粘贴到这里，我会帮您将其翻译成简体中文，并保留原始的格式、Markdown 语法以及技术术语。谢谢！

概述

论文 InftyThink+ 解决了大型语言模型（LLM）在处理长篇多步骤问题时的核心瓶颈：在提示中保留每个中间“思考”会导致成本呈二次增长，触及上下文长度限制，并且常常导致模型“忘记”早期步骤。通过将推理过程框定为可控的迭代循环——模型决定何时将当前的思考链压缩为摘要再继续——作者展示了强化学习（RL）如何教会 LLM 在无限时间范围内 既高效又有效 地进行推理。

关键贡献

RL 驱动的迭代推理: 引入一个强化学习框架，能够联合学习何时摘要、保留什么、以及如何继续推理，而不是依赖固定的启发式或监督检查点。
两阶段训练流水线: 首先使用监督的“冷启动”让模型具备基本的推理能力，然后在轨迹层面的强化学习下微调整个推理轨迹，以实现策略性摘要。
模型控制的迭代边界: 策略学习动态设置迭代边界，使得思考链长度可灵活适配每个问题。
在具有挑战性的数学基准上取得实证提升: 使用 DeepSeek‑R1‑Distill‑Qwen‑1.5B 主干，InftyThink+ 在 AIME‑24 上将准确率提升 21 %，并始终优于标准的长思考链强化学习基线。
效率提升: 证明可实现高达 ~30 % 的推理延迟降低 以及更快的强化学习收敛，表明更智能的摘要也能加速训练。
更好的分布外鲁棒性: 学到的摘要策略相较于静态启发式，对未见过的推理任务具有更好的泛化能力。

方法论

迭代推理循环
- LLM 生成一段推理步骤（称为“思考块”）。
- 摘要器 将该块压缩为简洁的表示（短文本摘要）。
- 将压缩后的摘要追加到提示中，模型继续生成下一个块。
两阶段训练
- 阶段 1 – 监督预热： 在人工编写的 chain‑of‑thought 数据上训练模型，使其能够生成正确的中间步骤和合理的摘要。
- 阶段 2 – 轨迹级 RL： 将整个循环（生成 → 摘要 → 继续）视为单个 RL 章节。
  - 状态： 当前提示（包括累计的摘要）。
  - 动作： 决定在摘要之前生成多少步骤以及使用何种摘要策略。
  - 奖励： 复合信号，结合最终答案的正确性、推理延迟以及对过长提示的惩罚。
策略架构
- 一个轻量级控制器（例如小型 Transformer）位于主干 LLM 之上，输出对可能的迭代长度和摘要模式的分布。
- 使用近端策略优化（PPO）更新控制器，同时对主干 LLM 的参数进行联合微调，使生成与策略决策保持一致。
实现细节
- 主干模型： DeepSeek‑R1‑Distill‑Qwen‑1.5B（约 1.5 B 参数）。
- 摘要器： 同样的主干模型，微调后能够生成不超过 30 token 的前块摘要。
- 训练预算： 监督预热约 48 GPU‑小时 + RL 微调约 72 GPU‑小时。

结果与发现

基准	基线（长 CoT）	InftyThink+	Δ 准确率	推理延迟 ↓
AIME‑24	38 %	59 %	+21 %	~30 %
MATH (OOD)	45 %	52 %	+7 %	~25 %
GSM‑8K (OOD)	71 %	75 %	+4 %	~20 %

策略性摘要 在不牺牲逻辑流的前提下缩短提示长度，从而加快推理速度。
RL 微调收敛所需的 ≈½ 实际时间 相较于普通长 CoT RL 基线更快，得益于更短的轨迹和更清晰的奖励信号。
消融实验表明，学习何时进行摘要 对准确率提升贡献最大，而 学习保留哪些信息 主要推动延迟的降低。

实际意义

可扩展推理服务： 提供 LLM 推理的云 API（例如代码生成助手、数学辅导机器人）可以采用 InftyThink+ 来降低延迟和成本，尤其是对于原本需要数千 token 的查询。
受限内存部署： 边缘设备或本地推理服务器的上下文窗口受限，现在可以通过即时摘要来处理更深层次的推理。
改进的基于 RL 的对齐： 轨迹层面的 RL 公式为其他对齐任务提供了模板，这类任务关注过程（而非仅仅最终答案），例如多轮对话规划或逐步调试。
工具集成： 现有的思考链流水线可以通过轻量级摘要器和策略头进行改造，复用同一主干模型，从而实现相对低成本的采用。

限制与未来工作

摘要器质量依赖性: 如果摘要器遗漏关键的逻辑细节，下游步骤可能会偏离轨道。当前方法依赖同一个大型语言模型进行摘要，这可能会继承其自身的偏见。
奖励工程: 复合奖励在准确性与延迟之间进行平衡；为不同领域（例如法律推理与数学）调节这些权重可能需要人工努力。
向更大模型的可扩展性: 实验仅限于 1.5 B 参数模型；尚不清楚该方法在 30 B 以上模型上如何扩展，在这些模型中策略学习可能会变得更不稳定。
超出数学的泛化能力: 虽然 OOD 数学基准显示出提升，但更广泛的推理领域（例如科学文献综合）仍需专门评估。

未来方向 包括层次化摘要（多层次抽象）、用于领域适应的奖励权重元学习，以及将强化学习循环扩展至整合外部工具（例如计算器或代码解释器），以实现真正的开放式问题求解。

作者

Yuchen Yan
Liang Jiang
Jin Jiang
Shuaicheng Li
Zujie Wen
Zhiqiang Zhang
Jun Zhou
Jian Shao
Yueting Zhuang
Yongliang Shen

论文信息

arXiv ID: 2602.06960v1
分类: cs.CL, cs.AI
出版日期: 2026年2月6日
PDF: 下载 PDF

[Paper] InftyThink+: 有效且高效的无限时域推理通过强化学习

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 大规模最佳土耳其子词策略：数据、词汇与形态学相互作用的系统评估

[Paper] 揭示多目标对齐中的跨目标干扰

[Paper] 数的表征几何

[Paper] 主动磁悬浮系统的最优导数反馈控制：基于数据驱动方法的实验研究