[Paper] 关于预训练、中期训练与 RL 对推理语言模型的相互作用
发布: (2025年12月9日 GMT+8 02:12)
7 min read
原文: arXiv
Source: arXiv - 2512.07783v1
概览
本文探讨了为什么强化学习(RL)微调有时会提升语言模型(LM)在推理方面的表现,以及何时它能够在模型预训练期间未学到的能力上真正增加新能力。通过构建一个完全可控的合成基准,作者将(1)大规模预训练、(2)聚焦的“mid‑training”阶段以及(3)基于 RL 的后训练的独立效应进行分离。研究结果阐明了 RL 真正提升推理的条件,并指出了此前被低估的 mid‑training 作用。
关键贡献
- 受控实验框架:合成推理任务,具备明确的原子操作和可追踪的逐步解答,能够因果归因性能提升。
- 三阶段训练分析:在相同计算预算下系统比较预训练、mid‑training 与 RL 微调。
- 边界条件洞察:只有当模型在预训练后仍有“余量”,且 RL 数据位于模型能力的边缘时,RL 才会带来真正的能力提升。
- 上下文迁移:仅需最小但足够的预训练曝光,RL 就能在不同表面形式(如同义改写)之间实现推理的泛化。
- mid‑training 优势:加入有针对性的 mid‑training 阶段(不使用 RL)在相同计算预算下始终优于仅使用 RL 的微调。
- 过程级奖励:对正确的中间推理步骤进行奖励,可降低 reward‑hacking 并提升生成推理轨迹的忠实度。
方法论
-
Synthetic Reasoning Suite – 作者构建了一套玩具问题(例如列表算术、符号操作),这些问题可以拆解为一系列原子操作(加、乘、查找等)。每个问题都配有真实的推理轨迹,便于验证模型答案是否遵循正确步骤。
-
训练阶段
- Pre‑training:在通用语料(用随机文本模拟)上进行大规模语言建模,赋予模型基本的语言知识。
- Mid‑training:在合成任务的子集上进行有监督的聚焦阶段,旨在教授模型推理操作的结构,不涉及任何 RL 信号。
- RL post‑training:使用近端策略优化(PPO),奖励基于最终答案的正确性以及(在过程奖励变体中)每一步的正确性。
-
评估维度
- 外推泛化:在比训练时更长或更深层的组合上测试。
- 上下文泛化:在相同逻辑任务以不同措辞或格式表达时进行测试。
-
受控变量 – 计算预算、模型规模和数据分布在所有实验中保持不变,从而实现对三阶段的干净因果比较。
结果与发现
| 训练方案 | 外推 (pass@128) | 上下文迁移 | 计算效率 |
|---|---|---|---|
| 仅 Pre‑train | 低 (≈10 %) | 接近随机 | 基线 |
| 仅 Mid‑train (无 RL) | 中等 (≈35 %) | 良好 (≈70 %) | 1× |
| 仅 RL (在 Pre‑train 之后) | 高 仅在 预训练余量存在时 (≈55 %) | 良好若预训练提供了最小曝光 | 1× |
| Mid‑train + RL | 综合最佳 (≈70 % 外推, ≈85 % 上下文) | 最高迁移 | 与仅 RL 相同计算量 |
- RL 收获有条件:当预训练已饱和任务分布时,RL 贡献甚微;当模型仍处于“边缘”时,RL 能将其推向更高水平。
- 过程级奖励降低了“reward hacking”(例如模型仅输出正确答案而不进行合理推理),并将轨迹正确率提升约 15 %。
- Mid‑training 发光:在相同计算预算下,针对目标推理模式的短期监督阶段带来的提升大于单纯 RL,表明先教会问题的形状至关重要。
实践意义
- 设计 RL 流程:在启动高成本 RL 微调前,先确认基模型在目标任务上仍有容量。使用课程将 RL 数据放在能力边界上,而非远超模型当前水平。
- Mid‑training 作为廉价提升:加入一个短暂、监督的“mid‑training”阶段,聚焦于下游任务的核心推理原语(如代码分析、数学、逻辑推断),成本远低于 RL,且收益相当或更佳。
- 奖励工程:在 RL 奖励中加入中间步骤验证(如单元测试、符号检查),强制模型产生可信推理,这对自动定理证明或金融决策等安全关键应用尤为重要。
- 跨上下文迁移:在预训练期间(或快速的“上下文微调”)对多样化表面形式进行最小曝光,即可让 RL 将推理泛化到新表述,降低对大规模数据增强的需求。
- 计算预算分配:在固定计算预算下,先分配一部分用于 mid‑training 再进行 RL,可获得比全部用于 RL 更高的整体性能。
局限性与未来工作
- 合成领域:基准使用的是干净、确定性的玩具任务;真实世界的推理(如常识、代码生成)更为复杂,可能不遵循相同模式。
- 规模:实验在中等规模模型(≈125 M 参数)上进行,尚不清楚结论在数十亿参数的大模型上是否仍然成立。
- 奖励设计复杂度:过程级奖励需要自动验证中间步骤,这在非结构化领域可能并不容易实现。
- 未来方向:将框架扩展到半合成或自然语言推理数据集,探索用于 RL 边界数据的自动课程生成,并在更大模型及多模态输入上检验相互作用。
作者
- Charlie Zhang
- Graham Neubig
- Xiang Yue
论文信息
- arXiv ID: 2512.07783v1
- Categories: cs.CL
- Published: December 8, 2025
- PDF: Download PDF