[Paper] 从 $P(y|x)$ 到 $P(y)$:探索预训练空间中的强化学习
发布: (2026年4月16日 GMT+8 01:59)
7 分钟阅读
原文: arXiv
Source: arXiv - 2604.14142v1
概述
本文介绍了 PreRL,一种新颖的强化学习(RL)框架,它直接在语言模型的 预训练 分布 (P(y)) 上进行操作,而不是常规的条件分布 (P(y|x))。通过塑造边际输出空间,作者展示了可以在保持模型广泛生成能力的同时,放大推理能力——这是传统在冻结的 LLM 上进行的 RL 所无法实现的。
关键贡献
- 预训练空间强化学习 (PreRL): 首个将奖励驱动的更新应用于冻结的大语言模型的边际分布 (P(y)) 的方法。
- 理论梯度对齐: 通过证明和实验证据表明 (\nabla \log P(y)) 与 (\nabla \log P(y|x)) 紧密对齐,证明 PreRL 可作为标准强化学习的替代。
- 负样本强化 (NSR): 一种针对性的“负样本”信号,能够积极剪枝不合理的推理路径,使反思思考和转移思考分别提升约 ≈ 15 倍和 ≈ 6.5 倍。
- 双空间强化学习 (DSRL): 两阶段训练方案——首先运行 NSR‑PreRL 扩展推理视野,然后切换到传统强化学习进行细粒度策略微调。
- 实证优势: DSRL 在多个推理基准(MathQA、GSM‑8K 和逻辑推理任务)上始终优于强基线(如标准 RLHF、基于 PPO 的微调)。
方法论
- 起点 – 冻结的 LLM: 基础模型保持不变;其预训练分布 (P(y)) 被视为对所有可能 token 序列的策略。
- 奖励定义: 一个任务特定的奖励函数 (R(y)) 用来评估生成答案的质量(正确性、逻辑一致性等)。
- (P(y)) 的在线更新: 使用类似策略梯度的更新,模型最大化 (\mathbb{E}_{y\sim P}[R(y)])。由于 (\log P(y)) 的梯度可以通过模型自身的 logits 计算,无需额外的前向传播。
- 负样本强化 (NSR):
- 生成一批负样本(高概率但错误的答案)。
- 施加强负奖励,有效地压低它们的概率质量。
- 这种“剪枝”迫使模型将概率分配到更具多样性、可能正确的推理轨迹上。
- 双空间 RL (DSRL) 流程:
- 阶段 1 – NSR‑PreRL: 运行若干轮基于 NSR 的更新,以拓宽推理空间并消除明显的死路。
- 阶段 2 – 标准 RL(例如 PPO): 在已剪枝的策略上对原始奖励进行微调,精确优化条件分布 (P(y|x))。
所有步骤均兼容现有的 transformer 库(例如 HuggingFace 🤗 Transformers),并且相较于典型的 RLHF 运行只需适度的额外计算。
结果与发现
| Benchmark | Baseline (PPO‑RLHF) | PreRL (NSR only) | DSRL (NSR → PPO) |
|---|---|---|---|
| GSM‑8K (accuracy) | 71.2 % | 73.8 % | 77.5 % |
| MathQA (accuracy) | 68.5 % | 70.1 % | 74.3 % |
| Logical Deduction (exact match) | 62.0 % | 64.7 % | 68.9 % |
- Transition thoughts(在达到解答之前的不同推理步骤数量)在 NSR‑PreRL 下增加了 14.89×。
- Reflection thoughts(自我纠正循环)增长了 6.54×,表明内部的“思考 aloud”行为更多。
- 消融实验表明,(\log P(y)) 与 (\log P(y|x)) 之间的梯度对齐在整个训练过程中保持 > 0.92 的余弦相似度,验证了理论主张。
实际意义
- 更快的推理微调: 通过提前剪枝错误答案空间,开发者可以在更少的 RLHF 轮次下实现更高的准确率,从而节省 GPU 时间。
- 更好的泛化能力: 由于 PreRL 基于边际分布工作,模型仍然保留在微调任务之外生成多样、创意文本的能力——这对需要兼顾事实准确性和开放式生成的聊天机器人非常有用。
- 即插即用的 RL 组件: NSR‑PreRL 阶段可以直接叠加在任意已有的 LLM 检查点之上,无需重新训练整个模型,这对提供“基础模型 + RL 层”套餐的 SaaS 供应商具有吸引力。
- 安全与对齐: 负样本强化自然抑制先验概率高的有害或幻觉输出,提供了一种在更昂贵的 RLHF 过程之前使用的轻量级对齐工具。
限制与未来工作
- 奖励设计依赖性: 该方法仍然依赖精心设计的奖励函数;奖励校准不当可能会误导剪枝过程。
- 对超大模型的可扩展性: 实验在 7‑B 和 13‑B 参数模型上进行;扩展到 70‑B 以上规模可能需要梯度检查点技巧以保持内存使用可控。
- 静态语料库偏移: 虽然 PreRL 缓解了分布偏移,但底层的预训练语料库仍是静态的;未来工作可以探索使用流式数据进行持续的预训练空间更新。
- 更广泛的任务范围: 论文聚焦于推理密集型基准;将 NSR‑PreRL 应用于生成导向任务(如代码合成、故事生成)是一个待探索的方向。
作者
- Yuqiao Tan
- Minzheng Wang
- Bo Liu
- Zichen Liu
- Tian Liang
- Shizhu He
- Jun Zhao
- Kang Liu
论文信息
- arXiv ID: 2604.14142v1
- 分类: cs.LG, cs.AI, cs.CL
- 发表时间: 2026年4月15日
- PDF: 下载 PDF