[Paper] InftyThink+: 有效且高效的无限时域推理通过强化学习

发布: (2026年2月7日 GMT+8 02:59)
8 分钟阅读
原文: arXiv

抱歉,我目前无法直接访问外部链接获取文档内容。请您把需要翻译的文本粘贴到这里,我会帮您将其翻译成简体中文,并保留原始的格式、Markdown 语法以及技术术语。谢谢!

概述

论文 InftyThink+ 解决了大型语言模型(LLM)在处理长篇多步骤问题时的核心瓶颈:在提示中保留每个中间“思考”会导致成本呈二次增长,触及上下文长度限制,并且常常导致模型“忘记”早期步骤。通过将推理过程框定为可控的迭代循环——模型决定何时将当前的思考链压缩为摘要再继续——作者展示了强化学习(RL)如何教会 LLM 在无限时间范围内 既高效 有效 地进行推理。

关键贡献

  • RL 驱动的迭代推理: 引入一个强化学习框架,能够联合学习 何时 摘要、保留什么、以及 如何 继续推理,而不是依赖固定的启发式或监督检查点。
  • 两阶段训练流水线: 首先使用监督的“冷启动”让模型具备基本的推理能力,然后在轨迹层面的强化学习下微调整个推理轨迹,以实现策略性摘要。
  • 模型控制的迭代边界: 策略学习动态设置迭代边界,使得思考链长度可灵活适配每个问题。
  • 在具有挑战性的数学基准上取得实证提升: 使用 DeepSeek‑R1‑Distill‑Qwen‑1.5B 主干,InftyThink+ 在 AIME‑24 上将准确率提升 21 %,并始终优于标准的长思考链强化学习基线。
  • 效率提升: 证明可实现高达 ~30 % 的推理延迟降低 以及更快的强化学习收敛,表明更智能的摘要也能加速训练。
  • 更好的分布外鲁棒性: 学到的摘要策略相较于静态启发式,对未见过的推理任务具有更好的泛化能力。

方法论

  1. 迭代推理循环

    • LLM 生成一段推理步骤(称为“思考块”)。
    • 摘要器 将该块压缩为简洁的表示(短文本摘要)。
    • 将压缩后的摘要追加到提示中,模型继续生成下一个块。
  2. 两阶段训练

    • 阶段 1 – 监督预热: 在人工编写的 chain‑of‑thought 数据上训练模型,使其能够生成正确的中间步骤和合理的摘要。
    • 阶段 2 – 轨迹级 RL: 将整个循环(生成 → 摘要 → 继续)视为单个 RL 章节。
      • 状态: 当前提示(包括累计的摘要)。
      • 动作: 决定在摘要之前生成多少步骤以及使用何种摘要策略。
      • 奖励: 复合信号,结合最终答案的正确性、推理延迟以及对过长提示的惩罚。
  3. 策略架构

    • 一个轻量级控制器(例如小型 Transformer)位于主干 LLM 之上,输出对可能的迭代长度和摘要模式的分布。
    • 使用近端策略优化(PPO)更新控制器,同时对主干 LLM 的参数进行联合微调,使生成与策略决策保持一致。
  4. 实现细节

    • 主干模型: DeepSeek‑R1‑Distill‑Qwen‑1.5B(约 1.5 B 参数)。
    • 摘要器: 同样的主干模型,微调后能够生成不超过 30 token 的前块摘要。
    • 训练预算: 监督预热约 48 GPU‑小时 + RL 微调约 72 GPU‑小时。

结果与发现

基准基线(长 CoT)InftyThink+Δ 准确率推理延迟 ↓
AIME‑2438 %59 %+21 %~30 %
MATH (OOD)45 %52 %+7 %~25 %
GSM‑8K (OOD)71 %75 %+4 %~20 %
  • 策略性摘要 在不牺牲逻辑流的前提下缩短提示长度,从而加快推理速度。
  • RL 微调收敛所需的 ≈½ 实际时间 相较于普通长 CoT RL 基线更快,得益于更短的轨迹和更清晰的奖励信号。
  • 消融实验表明,学习何时进行摘要 对准确率提升贡献最大,而 学习保留哪些信息 主要推动延迟的降低。

实际意义

  • 可扩展推理服务: 提供 LLM 推理的云 API(例如代码生成助手、数学辅导机器人)可以采用 InftyThink+ 来降低延迟和成本,尤其是对于原本需要数千 token 的查询。
  • 受限内存部署: 边缘设备或本地推理服务器的上下文窗口受限,现在可以通过即时摘要来处理更深层次的推理。
  • 改进的基于 RL 的对齐: 轨迹层面的 RL 公式为其他对齐任务提供了模板,这类任务关注过程(而非仅仅最终答案),例如多轮对话规划或逐步调试。
  • 工具集成: 现有的思考链流水线可以通过轻量级摘要器和策略头进行改造,复用同一主干模型,从而实现相对低成本的采用。

限制与未来工作

  • 摘要器质量依赖性: 如果摘要器遗漏关键的逻辑细节,下游步骤可能会偏离轨道。当前方法依赖同一个大型语言模型进行摘要,这可能会继承其自身的偏见。
  • 奖励工程: 复合奖励在准确性与延迟之间进行平衡;为不同领域(例如法律推理与数学)调节这些权重可能需要人工努力。
  • 向更大模型的可扩展性: 实验仅限于 1.5 B 参数模型;尚不清楚该方法在 30 B 以上模型上如何扩展,在这些模型中策略学习可能会变得更不稳定。
  • 超出数学的泛化能力: 虽然 OOD 数学基准显示出提升,但更广泛的推理领域(例如科学文献综合)仍需专门评估。

未来方向 包括层次化摘要(多层次抽象)、用于领域适应的奖励权重元学习,以及将强化学习循环扩展至整合外部工具(例如计算器或代码解释器),以实现真正的开放式问题求解。

作者

  • Yuchen Yan
  • Liang Jiang
  • Jin Jiang
  • Shuaicheng Li
  • Zujie Wen
  • Zhiqiang Zhang
  • Jun Zhou
  • Jian Shao
  • Yueting Zhuang
  • Yongliang Shen

论文信息

  • arXiv ID: 2602.06960v1
  • 分类: cs.CL, cs.AI
  • 出版日期: 2026年2月6日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »

[Paper] 数的表征几何

认知科学中的一个核心问题是,概念表征是汇聚到共享的流形以支持泛化,还是分散成正交的……