[Paper] Nemotron-Cascade:规模化级联强化学习用于通用推理模型
发布: (2025年12月16日 GMT+8 02:02)
8 min read
原文: arXiv
Source: arXiv - 2512.13607v1
概述
The Nemotron‑Cascade 论文解决了构建大规模推理模型的核心障碍:如何训练一个既能遵循简短指令式提示 and 能进行深度、多步骤问题求解的单一模型。通过引入一种 cascaded 强化学习(RL)流水线,将每个领域(例如代码生成、数学、逻辑推理)视为独立的训练阶段,作者在广泛的基准测试上实现了最先进的性能——全部使用 14 B‑parameter 模型。
关键贡献
- Cascade RL 框架 – 一种顺序的、按领域划分的 RL 调度,能够隔离任务之间响应长度和验证延迟的异质性。
- 双模式能力 – 同一模型可以在快速的“指令”模式和较慢的“深度思考”模式之间切换,无需架构更改。
- 实证突破 – 14 B Nemotron‑Cascade 在 LiveCodeBench(v5/v6/Pro)上超越其监督微调(SFT)教师,并在2025年国际信息学奥林匹克竞赛中获得银牌。
- 开放训练配方 – 详细的数据、超参数和课程设置已公开,便于复现。
- 关于 RLHF 的洞见 – 在进行特定领域的带验证 RL(RLVR)之前先应用人类反馈强化学习(RLHF),不仅能对齐偏好,还能显著提升原始推理能力。
方法论
- 监督式预训练 (SFT) – 基模型首先在大规模混合指令数据集上进行微调(使用与 DeepSeek‑R1‑0528 相同的数据)。
- RLHF 对齐 – 传统的 RLHF 步骤针对人类评分的偏好进行优化,生成一个对齐良好的 “teacher” 检查点。
- 级联领域化 RLVR – 作者并未将所有任务混合到单一 RL 循环中,而是为每个领域运行 独立的 RL 阶段:
- 阶段 1:短响应任务(例如问答、摘要)。
- 阶段 2:中等长度任务(例如代码合成)。
- 阶段 3:长且验证密集的任务(例如定理证明、算法设计)。
每个阶段使用 领域特定的奖励模型,能够评估正确性和计算成本,使 RL 优化器能够适应该领域独特的延迟特性。
- 双模式推理 – 推理时,轻量级控制器根据用户提供的标志选择快速的 “instruct” 策略或较慢的 “deep‑thinking” 策略,复用相同的权重。
级联设计显著简化了工程实现:RL 基础设施一次只需处理一种奖励形状,且超参数(例如 KL 惩罚、学习率)可以针对每个领域单独调优,避免相互污染。
Source: …
结果与发现
| 基准 | 模型 | 指标(数值越高越好) | 相较于 SFT 教师的提升 |
|---|---|---|---|
| LiveCodeBench v5 | Nemotron‑Cascade (14 B) | 78.4% pass@1 | +6.2 分 |
| LiveCodeBench v6 | Nemotron‑Cascade (14 B) | 81.1% pass@1 | +7.5 分 |
| LiveCodeBench Pro | Nemotron‑Cascade (14 B) | 84.3% pass@1 | +8.9 分 |
| IOI 2025 (Silver) | Nemotron‑Cascade (14 B) | 总体第 2 名 | – |
| MATH、GSM‑8K、HumanEval | Nemotron‑Cascade (14 B) | 达到业界领先水平或与 70 B 模型相差 1‑2 % | – |
关键观察
- 仅使用 RLHF 已经提升了推理得分,但随后进行的 RLVR 阶段在不抹去之前提升的情况下,加入了特定领域的精细化。
- 训练时间缩短约 30 %,相较于单一的 RL 循环,因为每个阶段可以使用与其延迟特性匹配的批量大小和计算预算。
- 双模式推理几乎没有额外开销;“深度思考”模式仅增加一个可配置的超时,使模型既适用于交互式助手,也适用于批量式问题求解。
实际意义
- 统一的助理和编码者 API – 开发者可以暴露一个单一端点,通过切换快速回答和深入问题求解,实现产品设计的简化。
- 成本感知部署 – 由于级联将长延迟任务隔离,云服务商可以为快速模式分配更便宜的 GPU 实例,仅在深度思考标志开启时才使用高端硬件。
- 更易的 RL 流程工程 – 构建基于 RL 的微调的团队可以采用级联调度,避免“千篇一律”奖励工程的噩梦,尤其在处理异构数据(代码、数学、对话)时。
- 开源可复现性 – 已发布的配方使初创公司和研究实验室能够在无需 70 B 计算预算的情况下复现 14 B 推理模型,降低高级 AI 产品的入门门槛。
- 基准驱动的课程学习 – 分阶段的方法自然契合课程学习:先从短任务开始,然后逐步延长响应长度,类似开发者在扩展功能前先进行原型设计的过程。
限制与未来工作
- 规模上限 – 虽然级联在 14 B 时表现出色,但论文并未探讨在 >100 B 模型上是否仍能获得相同的提升,因为强化学习信号可能会饱和。
- 奖励模型的忠实度 – 领域特定的奖励模型是手工制作的;不准确之处可能会传播,尤其是在像形式化证明这样验证密集的领域。
- 模式选择启发式 – 目前的二元标志是手动的;一个能够预测所需深度的自动选择器可以进一步简化用户体验。
- 跨领域迁移 – 作者指出,当后续领域的奖励与前面领域冲突时会出现偶尔的“负迁移”;未来工作可以引入多目标强化学习来平衡这种紧张关系。
总体而言,Nemotron‑Cascade 证明了 结构化、领域感知的强化学习 能在中等规模模型中释放高质量推理能力,为渴望在产品中嵌入复杂问题解决能力的开发者提供了务实的路线图。
作者
- Boxin Wang
- Chankyu Lee
- Nayeon Lee
- Sheng‑Chieh Lin
- Wenliang Dai
- Yang Chen
- Yangyi Chen
- Zhuolin Yang
- Zihan Liu
- Mohammad Shoeybi
- Bryan Catanzaro
- Wei Ping
Paper Information
- arXiv ID: 2512.13607v1
- Categories: cs.CL, cs.AI, cs.LG
- Published: 2025年12月15日
- PDF: 下载 PDF