[Paper] 用于长期推理的递归模型

发布: 1天前 (2026年3月3日 GMT+8 01:37)

8 分钟阅读

原文: arXiv

Source: arXiv - 2603.02112v1

概述

论文 “Recursive Models for Long‑Horizon Reasoning” 解决了当今大型语言模型（LLM）的一个根本瓶颈：它们只能在固定大小的上下文窗口内进行推理。通过让模型递归调用自身，在独立的上下文中解决更小的子问题，作者展示了如何突破“一次性”限制，从而实现真正的长时程推理。

关键贡献

递归模型架构：引入了一个简约而强大的框架，使得大型语言模型（LLM）能够将自身作为子例程调用，为每个子任务传递精简的上下文。
理论保证：证明任何可计算问题都可以递归分解，使得每个子任务所需的活动上下文仅为标准自回归过程的指数级更小。
在代理系统中的最优性：将理论扩展到更一般的“代理”架构（任意上下文处理和控制流），并展示递归模型在该类中实现了最大的推理能力。
实证验证：训练了一个30亿参数的模型以递归方式运行，并在布尔可满足性（SAT）——一种经典的长时程组合搜索问题——上相较于最先进的LLM表现出显著的性能提升。
与基于摘要的上下文管理的比较：表明递归在任何单序列方法（例如对先前文本进行摘要）之上都有严格的优势，因为它能够保持极小的活动窗口，同时仍然解决整个问题。

方法论

递归分解
- 将原始任务拆分为一个子任务树。
- 树中的每个节点都由相同的基础语言模型解决，但仅使用该子问题所需的局部上下文（例如，SAT 公式的一个子句）。
模型调用协议
- 父调用打包一个描述子任务的提示以及一段相关变量的简短“草稿”。
- 子模型返回简明答案（例如，“可满足”或部分赋值）。
- 父模型聚合子答案，必要时再生成进一步的递归调用。
训练方案
- 对一个 3B 参数的 Transformer 进行微调，使用合成递归任务（嵌套算术、树结构推理）学习“自我调用”模式。
- 课程学习逐步增加递归深度，鼓励模型保持每次调用的上下文最小化。
在 SAT 上的评估
- 生成包含最多 100 个变量的 3‑SAT 实例。
- 递归模型接收完整的 CNF 公式，递归求解子子句，并组合成全局赋值。
- 基准包括 GPT‑4、Claude，以及使用单一大上下文（不递归）的强大微调 7B 模型。

结果与发现

系统	平均 SAT 成功率（100‑变量）	每次调用的平均 Token 数
Recursive 3B（本工作）	78 %	~30（每个子任务）
GPT‑4（单次）	45 %	8 k（完整上下文）
Claude 2（单次）	42 %	—
微调 7B（无递归）	48 %	—

上下文缩减：最深的递归调用仅需约 30 个 token，相比需要约 8 k token 来容纳完整公式呈指数级减少。
可扩展性：随着问题规模增长，差距扩大——递归 3B 在 200‑变量 SAT 上仍保持 >70 % 成功率，而单次模型下降到 <30 %。
泛化能力：相同的递归策略在其他组合任务（图着色、子集和）上通过适度微调即可迁移，暗示一种可复用的推理原语。

实际意义

Agentic AI pipelines：开发自主代理（例如代码助手、规划机器人）的开发者可以嵌入递归调用接口，使每个推理步骤保持轻量，避免昂贵的上下文窗口。
Edge deployment：小型模型（约 3 B 规模）现在能够处理以前只能依赖大型模型的问题，因为它们可以递归地“拆解问题”。这为受限环境中的设备端推理打开了大门。
Tool‑use integration：递归调用自然映射到现有的工具使用 API（例如，将 SAT 求解器作为子任务调用）。论文的框架提供了一种原则性的方法来决定何时将任务卸载给工具而不是内部解决。
Debuggability：由于每个子任务都是独立的，开发者可以检查中间提示和输出，从而更容易追踪长链推理中的错误。

限制与未来工作

递归开销：当前实现因大量顺序模型调用而产生延迟；需要批处理策略或并行树遍历以实现生产级速度。
学习分解方式：论文假设任务划分是手工构造或外部提供的。自动发现最优递归分解仍是一个未解决的挑战。
全局状态的记忆：虽然每次调用的上下文很小，但在众多调用之间保持一致的全局状态可能脆弱；更丰富的状态传递机制是一个有前景的方向。
向更丰富领域的扩展：实验聚焦于布尔 SAT 和合成组合任务。将递归扩展到自然语言规划、代码合成或多模态推理将检验该框架的通用性。

底线：通过让语言模型 自行调用 来处理问题的更小片段，作者展示了一条简洁且有理论支撑的路径，以突破长期限制 LLM 推理的上下文大小上限。对于构建下一代 AI 代理的开发者而言，递归提供了一种实用配方，能够实现深度、多步骤推理，而无需扩大模型规模或上下文窗口。

作者

Chenxiao Yang
Nathan Srebro
Zhiyuan Li

论文信息

arXiv ID: 2603.02112v1
分类: cs.LG, cs.CL
发布日期: 2026年3月2日
PDF: Download PDF

[Paper] 用于长期推理的递归模型

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 测试时强化学习的工具验证

[Paper] 扩展 Retrieval Augmented Generation 与 RAG Fusion：行业部署经验

[Paper] 零样本和少样本命名实体识别：犯罪领域的案例研究与数据集 (CrimeNER)

[Paper] LLMs 作为战略行为者：行为对齐、风险校准与论证框架在地缘政治模拟中的研究