[Paper] 关于预训练、中期训练与 RL 对推理语言模型的相互作用

发布: 1周前 (2025年12月9日 GMT+8 02:12)

7 min read

原文: arXiv

Source: arXiv - 2512.07783v1

概览

本文探讨了为什么强化学习（RL）微调有时会提升语言模型（LM）在推理方面的表现，以及何时它能够在模型预训练期间未学到的能力上真正增加新能力。通过构建一个完全可控的合成基准，作者将（1）大规模预训练、（2）聚焦的“mid‑training”阶段以及（3）基于 RL 的后训练的独立效应进行分离。研究结果阐明了 RL 真正提升推理的条件，并指出了此前被低估的 mid‑training 作用。

关键贡献

受控实验框架：合成推理任务，具备明确的原子操作和可追踪的逐步解答，能够因果归因性能提升。
三阶段训练分析：在相同计算预算下系统比较预训练、mid‑training 与 RL 微调。
边界条件洞察：只有当模型在预训练后仍有“余量”，且 RL 数据位于模型能力的边缘时，RL 才会带来真正的能力提升。
上下文迁移：仅需最小但足够的预训练曝光，RL 就能在不同表面形式（如同义改写）之间实现推理的泛化。
mid‑training 优势：加入有针对性的 mid‑training 阶段（不使用 RL）在相同计算预算下始终优于仅使用 RL 的微调。
过程级奖励：对正确的中间推理步骤进行奖励，可降低 reward‑hacking 并提升生成推理轨迹的忠实度。

方法论

Synthetic Reasoning Suite – 作者构建了一套玩具问题（例如列表算术、符号操作），这些问题可以拆解为一系列原子操作（加、乘、查找等）。每个问题都配有真实的推理轨迹，便于验证模型答案是否遵循正确步骤。
训练阶段
- Pre‑training：在通用语料（用随机文本模拟）上进行大规模语言建模，赋予模型基本的语言知识。
- Mid‑training：在合成任务的子集上进行有监督的聚焦阶段，旨在教授模型推理操作的结构，不涉及任何 RL 信号。
- RL post‑training：使用近端策略优化（PPO），奖励基于最终答案的正确性以及（在过程奖励变体中）每一步的正确性。
评估维度
- 外推泛化：在比训练时更长或更深层的组合上测试。
- 上下文泛化：在相同逻辑任务以不同措辞或格式表达时进行测试。
受控变量 – 计算预算、模型规模和数据分布在所有实验中保持不变，从而实现对三阶段的干净因果比较。

结果与发现

训练方案	外推 (pass@128)	上下文迁移	计算效率
仅 Pre‑train	低 (≈10 %)	接近随机	基线
仅 Mid‑train (无 RL)	中等 (≈35 %)	良好 (≈70 %)	1×
仅 RL (在 Pre‑train 之后)	高仅在预训练余量存在时 (≈55 %)	良好若预训练提供了最小曝光	1×
Mid‑train + RL	综合最佳 (≈70 % 外推, ≈85 % 上下文)	最高迁移	与仅 RL 相同计算量

RL 收获有条件：当预训练已饱和任务分布时，RL 贡献甚微；当模型仍处于“边缘”时，RL 能将其推向更高水平。
过程级奖励降低了“reward hacking”（例如模型仅输出正确答案而不进行合理推理），并将轨迹正确率提升约 15 %。
Mid‑training 发光：在相同计算预算下，针对目标推理模式的短期监督阶段带来的提升大于单纯 RL，表明先教会问题的形状至关重要。

实践意义

设计 RL 流程：在启动高成本 RL 微调前，先确认基模型在目标任务上仍有容量。使用课程将 RL 数据放在能力边界上，而非远超模型当前水平。
Mid‑training 作为廉价提升：加入一个短暂、监督的“mid‑training”阶段，聚焦于下游任务的核心推理原语（如代码分析、数学、逻辑推断），成本远低于 RL，且收益相当或更佳。
奖励工程：在 RL 奖励中加入中间步骤验证（如单元测试、符号检查），强制模型产生可信推理，这对自动定理证明或金融决策等安全关键应用尤为重要。
跨上下文迁移：在预训练期间（或快速的“上下文微调”）对多样化表面形式进行最小曝光，即可让 RL 将推理泛化到新表述，降低对大规模数据增强的需求。
计算预算分配：在固定计算预算下，先分配一部分用于 mid‑training 再进行 RL，可获得比全部用于 RL 更高的整体性能。

局限性与未来工作

合成领域：基准使用的是干净、确定性的玩具任务；真实世界的推理（如常识、代码生成）更为复杂，可能不遵循相同模式。
规模：实验在中等规模模型（≈125 M 参数）上进行，尚不清楚结论在数十亿参数的大模型上是否仍然成立。
奖励设计复杂度：过程级奖励需要自动验证中间步骤，这在非结构化领域可能并不容易实现。
未来方向：将框架扩展到半合成或自然语言推理数据集，探索用于 RL 边界数据的自动课程生成，并在更大模型及多模态输入上检验相互作用。

作者

Charlie Zhang
Graham Neubig
Xiang Yue

论文信息

arXiv ID: 2512.07783v1
Categories: cs.CL
Published: December 8, 2025
PDF: Download PDF

[Paper] 关于预训练、中期训练与 RL 对推理语言模型的相互作用

概览

关键贡献

方法论

结果与发现

实践意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] 超越表层形式：一种用于从自发言语中检测阿尔茨海默病的语义分析管道

[Paper] 迈向 LLM 个性化的有效模型编辑

[Paper] 迈向数字人类的交互智能

[Paper] 基于文体计量的演讲稿说话者归属分析