[Paper] 强化学习能教会大语言模型进行长时程推理吗？表达能力是关键

发布: 3天前 (2026年5月8日 GMT+8 01:48)

8 分钟阅读

原文: arXiv

Source: arXiv - 2605.06638v1

Overview

本文研究了强化学习（RL）如何让大型语言模型（LLM）进行长时程逻辑推理。作者通过引入一个可控的合成环境 ScaleLogic，系统性地探讨了训练工作量随所需推理深度以及底层逻辑表达能力的变化情况。研究结果揭示了明确的幂律关系，并表明在更具表达力的逻辑上进行训练，可实现更强大且计算效率更高的向真实世界推理任务的迁移。

关键贡献

ScaleLogic framework: 一个合成基准，让研究者可以变化 (1) proof depth（需要多少推理步骤）和 (2) logical expressiveness（从简单的 “if‑then” 到包含 ∧、∨、¬、∀ 的完整一阶逻辑）。
Empirical scaling law: RL 计算 (T) 随推理深度 (D) 的幂次增长 ((T \propto D^{\gamma}))，(R^{2}>0.99)。指数 (\gamma) 从约 1.0（对平凡逻辑）上升到约 2.6（对更丰富的逻辑）。
Transfer benefits: 在更具表达性的设置下训练的模型在下游数学和推理基准上提升最高 +10.66 分，并且相较于在更简单逻辑上训练的模型，以更少的计算量即可达到相同性能。
Method‑agnostic scaling: 该幂律在多种 RL 算法（例如 PPO、A2C）上均成立，表明该现象并非特定优化器所独有。
Curriculum learning boost: 引入逐步增加深度的课程学习显著提升了缩放效率，降低了在给定性能水平下所需的计算量。

方法论

合成环境设计 – ScaleLogic 生成随机逻辑陈述及相应的证明。用户选择一个 逻辑族（仅蕴含、允许合取、完整一阶）和一个深度 (D)，该深度决定正确证明必须包含的推理步骤数。
LLM + RL 循环 – 一个 LLM（例如 GPT‑2/3 规模）提出证明步骤；RL 奖励信号评估正确性（0/1），并可为部分进展提供 shaping 奖励。使用标准的策略梯度方法更新策略。
尺度实验 – 对每个逻辑族，作者在一系列深度（如 (D=2) 到 (D=20)）上训练模型，并记录总计算量（GPU‑小时）。他们拟合幂律曲线 (T = a D^{\gamma})。
课程安排 – 另一组实验从浅层证明开始，性能趋于平台后逐步提升 (D)，模拟 “易到难” 学习。
下游评估 – 在 RL 微调后，同一 LLM 在公共推理数据集（MATH、GSM‑8K、LogicalDeduction）上进行测试，且不进行额外的任务特定训练，以衡量迁移能力。

结果与发现

逻辑族	缩放指数 (\gamma)	达到 70% 深度‑准确度所需计算	转移增益（Δ 分）
Implication‑only	1.04	12 GPU‑hrs	+2.3
Conjunction‑enabled	1.68	38 GPU‑hrs	+5.7
Full first‑order (∧,∨,¬,∀)	2.60	112 GPU‑hrs	+10.66

幂律拟合：在所有族中 (R^{2}>0.99)，确认了可预测的缩放模式。
表达能力重要：更高表达能力的训练不仅在下游任务上带来更大的绝对增益，还提升了计算效率——使用课程学习时，以约 30 % 更少的计算即可实现相同性能。
算法鲁棒性：PPO、A2C 和 REINFORCE 都表现出相同的指数趋势，表明缩放律是推理问题本身的固有属性，而非优化器所致。
课程效果：与从第一天起就以最大深度进行训练的朴素基线相比，课程训练模型以大约一半的计算量实现相同的最终准确率。

实际意义

LLM 微调流水线: 团队可以采用基于课程的强化学习微调阶段，先教授浅层逻辑步骤，再转向更深层的证明，从而显著降低训练成本。
基准设计: ScaleLogic 方法提供了一种可复现的方式，在将新 LLM 部署到昂贵的真实数据集之前，对其推理能力进行压力测试。
生产力工具: 依赖多步推理的应用（例如代码合成助手、自动定理证明器、数据流水线规划器）可以受益于在更丰富逻辑形式上训练的强化学习增强 LLM，提供更可靠的逐步建议。
计算预算: 了解计算量随 (D^{\gamma}) 规模增长，使工程师能够估算实现目标推理深度所需的资源，从而使项目规划更加透明。
跨领域迁移: 由于表达性训练提升了在不相关的数学和逻辑任务上的表现，组织可以投资于单一、精心设计的强化学习课程，而不是为每个下游问题进行特定任务的微调。

限制与未来工作

Synthetic vs. real data：ScaleLogic 虽然可控，但可能无法捕捉自然语言推理的全部混乱性（歧义、隐含前提）。
Model size scope：实验聚焦于中等规模的 LLM；对数十亿参数模型的扩展行为仍是未解之谜。
Reward sparsity：二元正确性奖励在极深的证明中可能噪声较大；探索更密集的塑形奖励或层次化强化学习有望进一步提升效率。
Generalization to non‑logical tasks：将课程学习方法扩展到规划、调试或多模态推理等领域是一个有前景的方向。

通过揭示明确的 scaling law 并展示富表达逻辑训练的显著收益，本工作为希望赋予 LLM 具备稳健、长时程推理能力的开发者提供了实用的路线图。

作者

Tianle Wang
Zhaoyang Wang
Guangchen Lan
Xinpeng Wei
Sipeng Zhang
Guanwen Qiu
Abulhair Saparov

论文信息

arXiv ID: 2605.06638v1
分类: cs.AI, cs.CL
出版日期: 2026年5月7日
PDF: Download PDF

[Paper] 强化学习能教会大语言模型进行长时程推理吗？表达能力是关键

Overview

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 记忆诅咒：扩展回忆如何侵蚀 LLM Agents 的合作意图

[Paper] CA‑SQL：复杂度感知推理时间推理用于 Text-to‑SQL 的探索与计算预算分配

【论文】快速字节潜在Transformer

[Paper] Position: 机制可解释性必须披露识别假设以进行因果主张