[论文] 无监督 RLVR 能将 LLM 训练规模扩展到多远？

发布: 16小时前 (2026年3月10日 GMT+8 01:38)

9 分钟阅读

原文: arXiv

Source: arXiv - 2603.08660v1

概述

本文重新审视 Unsupervised Reinforcement Learning with Verifiable Rewards (URLVR)，将其视为在不依赖不断增长的人类标注数据的情况下继续扩展大型语言模型（LLMs）的一种方法。通过将模型自身的信号视为“奖励”，URLVR 有望在监督信号耗尽时仍保持训练循环的活力。作者系统地剖析了无监督奖励的空间，揭示了许多内在方法最终会崩溃的原因，并指出了有前景的外部奖励方向，可能突破当前的上限。

关键贡献

URLVR 分类法 – 引入了内在（来源于模型本身）和外部（来源于外部信号）奖励来源的明确划分。
统一的理论框架 – 表明所有内在奖励方法都隐式地锐化模型的初始概率分布，这仅在模型的早期置信度与真实正确性相匹配时有效。
经验性的“上升‑然后‑下降”模式 – 在广泛的内在方法和模型规模中，训练损失起初改善，但随后急剧崩溃；崩溃点由模型的先验决定，而非超参数。
模型崩溃步 (MCS) – 提出一个简单度量，用于估计模型的先验并预测内在强化学习何时会变得不稳定。
外部奖励原型 – 展示了使用 计算不对称性（例如，通过更慢但更准确的模型进行验证）的早期实验，能够规避内在置信度‑正确性限制。
实践者指南 – 提供了可操作的建议，说明何时可以信任内在奖励（小规模测试时微调），以及何时应转向外部验证。

方法论

形式化 URLVR – 作者将强化学习目标写成最大化期望奖励 (R)，其中 (R) 是模型自身输出分布（内在）或外部验证器（外部）的函数。
理论分析 – 通过将奖励视为对数概率锐化项，他们证明内在奖励会将策略推向以模型当前模式为中心的 delta‑distribution。如果该模式已经正确，训练会继续改进；如果不正确，策略会迅速塌陷到错误答案。
实验套件 –
- 模型：GPT 风格的 Transformer，参数规模从 125 M 到 13 B 不等。
- 内在奖励：自对比损失、熵降低、伪标签置信度以及 KL 正则化。
- 外部奖励：一个更慢的“教师”模型执行穷举搜索，或一个检查逻辑约束的符号验证器。
- 指标：标准语言模型困惑度、下游任务准确率，以及新提出的 模型塌陷步（损失突增的 RL 步）。
规模研究 – 在逐步增大的数据集和模型规模上运行每种方法，以绘制“可训练性前沿”。

结果与发现

方面	实验结果
内在奖励轨迹	所有内在方法都呈现上升‑下降曲线：初期收益提升，随后快速损失增加（崩塌）。
崩塌的决定因素	模型崩塌步数与模型的预训练困惑度（即其先验）高度相关。初始化更好的模型崩塌时间更晚，但模式仍然相同。
超参数的影响	调整学习率、奖励缩放或批量大小仅会略微移动曲线；崩塌时间基本保持不变。
测试时微调	当应用于极小的下游数据集（≤ 1 k 示例）时，内在奖励仍能提供适度的准确率提升且不会崩塌。
外部奖励	早期原型使用计算不对称的验证器（例如更大的教师模型）可避免锐化陷阱，使性能在内在上限之外持续提升。
MCS 作为预测指标	MCS > 10 k RL 步的模型在大多数实际微调场景中保持稳定，为开发者提供实用的经验法则。

实际影响

何时使用 intrinsic URLVR：适用于在小规模、特定领域语料上进行 test‑time adaptation，需要快速、无标签微调的场景（例如个人助理、细分聊天机器人）。
监控训练健康：在 RL pipelines 中实现 Model Collapse Step 指标，以在灾难性崩溃前自动停止训练。
设计可扩展的 reward pipelines：将重点转向 external verification——例如使用更慢但更准确的模型、符号检查，或甚至对高风险输出进行人工在环验证。这可以在更大规模上实现持续收益。
基础设施考虑：外部奖励需要 asymmetric compute（例如运行频率较低的 “teacher” 模型）。云服务提供商可以将这些检查安排为低优先级作业，从而保持整体成本可控。
安全与对齐：由于内在奖励会放大模型自身的偏见，单独依赖它们可能会加剧 hallucinations。外部验证提供了一种自然的安全阀。

限制与未来工作

外部奖励的范围：本文仅展示了初步的外部奖励实验；需要在更广泛的任务上进行更大量的基准测试。
静态先验的假设：理论分析将模型的初始分布视为固定，但在实际中预训练仍在持续演化；对这种动态效应的量化仍是未解之题。
计算开销：外部验证会引入延迟并增加 GPU 使用率，可能限制实时应用。优化验证调度是未来的方向。
更广泛的奖励族：该分类侧重于内在奖励与外部奖励；混合方案（例如自监督奖励结合偶尔的外部检查）尚未被探索。
对多模态大语言模型的泛化：研究仅限于纯文本模型；将这些发现扩展到视觉‑语言或音频‑语言模型对下一代系统至关重要。

作者

Bingxiang He
Yuxin Zuo
Zeyuan Liu
Shangziqi Zhao
Zixuan Fu
Junlin Yang
Cheng Qian
Kaiyan Zhang
Yuchen Fan
Ganqu Cui
Xiusi Chen
Youbang Sun
Xingtai Lv
Xuekai Zhu
Li Sheng
Ran Li
Huan‑ang Gao
Yuchen Zhang
Bowen Zhou
Zhiyuan Liu
Ning Ding

论文信息

arXiv ID: 2603.08660v1
分类: cs.LG, cs.CL
出版日期: 2026年3月9日
PDF: 下载 PDF

[论文] 无监督 RLVR 能将 LLM 训练规模扩展到多远？

概述

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] OfficeQA Pro：企业基准用于端到端基于事实的推理

[Paper] LycheeCluster: 高效长上下文推理与结构感知分块和层次化 KV 索引

[Paper] 尺度空间扩散

[Paper] Impermanent：实时基准用于时间序列预测中的时间泛化