[Paper] 从 $P(y|x)$ 到 $P(y)$:探索预训练空间中的强化学习

发布: (2026年4月16日 GMT+8 01:59)
7 分钟阅读
原文: arXiv

Source: arXiv - 2604.14142v1

概述

本文介绍了 PreRL,一种新颖的强化学习(RL)框架,它直接在语言模型的 预训练 分布 (P(y)) 上进行操作,而不是常规的条件分布 (P(y|x))。通过塑造边际输出空间,作者展示了可以在保持模型广泛生成能力的同时,放大推理能力——这是传统在冻结的 LLM 上进行的 RL 所无法实现的。

关键贡献

  • 预训练空间强化学习 (PreRL): 首个将奖励驱动的更新应用于冻结的大语言模型的边际分布 (P(y)) 的方法。
  • 理论梯度对齐: 通过证明和实验证据表明 (\nabla \log P(y)) 与 (\nabla \log P(y|x)) 紧密对齐,证明 PreRL 可作为标准强化学习的替代。
  • 负样本强化 (NSR): 一种针对性的“负样本”信号,能够积极剪枝不合理的推理路径,使反思思考和转移思考分别提升约 ≈ 15 倍和 ≈ 6.5 倍。
  • 双空间强化学习 (DSRL): 两阶段训练方案——首先运行 NSR‑PreRL 扩展推理视野,然后切换到传统强化学习进行细粒度策略微调。
  • 实证优势: DSRL 在多个推理基准(MathQA、GSM‑8K 和逻辑推理任务)上始终优于强基线(如标准 RLHF、基于 PPO 的微调)。

方法论

  1. 起点 – 冻结的 LLM: 基础模型保持不变;其预训练分布 (P(y)) 被视为对所有可能 token 序列的策略。
  2. 奖励定义: 一个任务特定的奖励函数 (R(y)) 用来评估生成答案的质量(正确性、逻辑一致性等)。
  3. (P(y)) 的在线更新: 使用类似策略梯度的更新,模型最大化 (\mathbb{E}_{y\sim P}[R(y)])。由于 (\log P(y)) 的梯度可以通过模型自身的 logits 计算,无需额外的前向传播。
  4. 负样本强化 (NSR):
    • 生成一批样本(高概率但错误的答案)。
    • 施加强负奖励,有效地压低它们的概率质量。
    • 这种“剪枝”迫使模型将概率分配到更具多样性、可能正确的推理轨迹上。
  5. 双空间 RL (DSRL) 流程:
    • 阶段 1 – NSR‑PreRL: 运行若干轮基于 NSR 的更新,以拓宽推理空间并消除明显的死路。
    • 阶段 2 – 标准 RL(例如 PPO): 在已剪枝的策略上对原始奖励进行微调,精确优化条件分布 (P(y|x))。

所有步骤均兼容现有的 transformer 库(例如 HuggingFace 🤗 Transformers),并且相较于典型的 RLHF 运行只需适度的额外计算。

结果与发现

BenchmarkBaseline (PPO‑RLHF)PreRL (NSR only)DSRL (NSR → PPO)
GSM‑8K (accuracy)71.2 %73.8 %77.5 %
MathQA (accuracy)68.5 %70.1 %74.3 %
Logical Deduction (exact match)62.0 %64.7 %68.9 %
  • Transition thoughts(在达到解答之前的不同推理步骤数量)在 NSR‑PreRL 下增加了 14.89×
  • Reflection thoughts(自我纠正循环)增长了 6.54×,表明内部的“思考 aloud”行为更多。
  • 消融实验表明,(\log P(y)) 与 (\log P(y|x)) 之间的梯度对齐在整个训练过程中保持 > 0.92 的余弦相似度,验证了理论主张。

实际意义

  • 更快的推理微调: 通过提前剪枝错误答案空间,开发者可以在更少的 RLHF 轮次下实现更高的准确率,从而节省 GPU 时间。
  • 更好的泛化能力: 由于 PreRL 基于边际分布工作,模型仍然保留在微调任务之外生成多样、创意文本的能力——这对需要兼顾事实准确性和开放式生成的聊天机器人非常有用。
  • 即插即用的 RL 组件: NSR‑PreRL 阶段可以直接叠加在任意已有的 LLM 检查点之上,无需重新训练整个模型,这对提供“基础模型 + RL 层”套餐的 SaaS 供应商具有吸引力。
  • 安全与对齐: 负样本强化自然抑制先验概率高的有害或幻觉输出,提供了一种在更昂贵的 RLHF 过程之前使用的轻量级对齐工具。

限制与未来工作

  • 奖励设计依赖性: 该方法仍然依赖精心设计的奖励函数;奖励校准不当可能会误导剪枝过程。
  • 对超大模型的可扩展性: 实验在 7‑B 和 13‑B 参数模型上进行;扩展到 70‑B 以上规模可能需要梯度检查点技巧以保持内存使用可控。
  • 静态语料库偏移: 虽然 PreRL 缓解了分布偏移,但底层的预训练语料库仍是静态的;未来工作可以探索使用流式数据进行持续的预训练空间更新。
  • 更广泛的任务范围: 论文聚焦于推理密集型基准;将 NSR‑PreRL 应用于生成导向任务(如代码合成、故事生成)是一个待探索的方向。

作者

  • Yuqiao Tan
  • Minzheng Wang
  • Bo Liu
  • Zichen Liu
  • Tian Liang
  • Shizhu He
  • Jun Zhao
  • Kang Liu

论文信息

  • arXiv ID: 2604.14142v1
  • 分类: cs.LG, cs.AI, cs.CL
  • 发表时间: 2026年4月15日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »