[Paper] 从原子到复合：强化学习实现互补推理的泛化

发布: 3天前 (2025年12月2日 GMT+8 02:27)

7 min read

原文: arXiv

Source: arXiv - 2512.01970v1

概览

本文研究 强化学习 (RL) 如何 将简单的推理能力转化为更强大、可组合的能力。通过将一个复杂的“互补推理”任务拆解为两个原子技能——参数推理（使用内部知识）和上下文推理（利用外部信息）——作者展示了 RL 能够将这些原语合成为一种稳健、可泛化的策略，但前提是模型必须先通过监督微调 (SFT) 掌握每项技能。

关键贡献

原子到复合框架： 将互补推理形式化为两个解耦原子任务的组合，实现了干净的实验控制。
SFT 泛化悖论： 证明仅在复合任务上训练的模型在分布内得分几乎完美，却在分布外 (OOD) 组合测试上彻底失效。
RL 作为推理合成器： 表明 RL 不仅仅是放大已有概率；它能够学习将原子技能组合成新的推理路径。
原子前置条件洞见： 确认一个严格要求：只有当基础模型已经通过 SFT 掌握了各个原子技能，RL 才能成功。
可扩展训练流水线： 提出两阶段配方——先在原子任务上进行 SFT，再在复合任务上进行 RL——在无需对每种可能组合显式监督的情况下实现强大的 OOD 泛化。

方法论

合成传记数据集： 作者生成了一套受控的人物传记数据，每条记录同时包含参数事实（如出生年份）和 上下文 线索（如引用的事件）。
任务拆解：
- 参数推理 —— 回答仅能使用模型内部知识库解决的问题。
- 上下文推理 —— 回答需要从提供的传记中提取并使用信息的问题。
- 复合（互补）推理 —— 回答需要同时结合上述两类信息的问题。
训练方案：
- 仅 SFT： 仅在复合任务上对语言模型进行微调。
- 原子 SFT + RL： 先分别在两个原子任务上进行微调，然后在复合任务上应用 RL（策略梯度），奖励正确的多步推理。
泛化基准： 评估三个难度层级：
- I.I.D. —— 测试数据与训练分布相同。
- Composition —— 已知原子模式的全新组合。
- Zero‑Shot —— 完全未在训练中出现的全新关系结构。

结果与发现

Training Setup	I.I.D. Accuracy	Composition Accuracy	Zero‑Shot Accuracy
SFT‑Only (Composite)	~99%	~45%	~12%
Atomic‑SFT + RL	~97%	84%	71%

仅 SFT 的模型在测试分布与训练相同的情况下表现出色，但在需要以未见方式重新组合技能时会崩溃。
加入 RL 的模型在保持高分布内性能的同时，显著提升了 OOD 泛化，尤其是在最难的 Zero‑Shot 场景。
消融实验表明，去掉任一原子预训练步骤都会破坏 RL 的收益，进一步强调了 原子前置条件 的重要性。

实际意义

模块化技能开发： 开发者可以先在狭义原语（如事实查找、上下文抽取）上训练语言模型，再让其解决更复杂的任务，从而降低对大规模标注复合数据的需求。
稳健的 AI 助手： 对于个人助理、客服机器人或代码生成工具等需要融合内部知识与用户提供上下文的应用，二阶段流水线有望更好地处理新颖请求模式。
成本效益高的 RL： 由于 RL 只在模型已经掌握基础技能后才启动，策略梯度阶段收敛更快，所需环境交互次数也远低于端到端 RL。
安全性与可解释性： 强制模型依赖显式的原子技能，使得审计其决策来源（内部 vs. 外部）更为容易，提升透明度和调试效率。

局限性与未来工作

合成领域： 实验使用的是精心策划的传记数据集；真实世界文本（如新闻、代码库）可能带来噪声和歧义，尚未在本文中覆盖。
向大模型的可扩展性： 本研究聚焦中等规模语言模型，尚不清楚结论是否同样适用于数十亿参数、内部知识更丰富的模型。
奖励设计： 当前 RL 奖励为二元（正确/错误），更细粒度的奖励塑形（如对正确子步骤给部分奖励）可能进一步提升学习效率。
向多模态推理的扩展： 未来工作可探索当其中一个原语涉及非文本模态（图像、表格、代码）时，原子到复合流水线是否仍然有效。

核心结论： 通过先让模型掌握简单、定义明确的推理技能，再让 RL 将这些技能拼接起来，我们能够构建出远超显式训练数据范围的系统——为实现真正可组合的 AI 开辟了实用路径。

作者

Sitao Cheng
Xunjian Yin
Ruiwen Zhou
Yuxuan Li
Xinyi Wang
Liangming Pan
William Yang Wang
Victor Zhong

论文信息

arXiv ID: 2512.01970v1
分类: cs.AI, cs.CL
发布日期: 2025 年 12 月 1 日
PDF: Download PDF

[Paper] 从原子到复合：强化学习实现互补推理的泛化

概览

关键贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] DraCo：Draft as CoT 用于 Text-to-Image 预览和稀有概念生成

[Paper] 语义软引导：在 LLMs 中进行长上下文推理，无需强化学习

[Paper] 结构化文档翻译通过格式强化学习

[Paper] 多LLM协作用于药物推荐