[Paper] 从 $P(y|x)$ 到 $P(y)$：探索预训练空间中的强化学习

发布: 3周前 (2026年4月16日 GMT+8 01:59)

7 分钟阅读

原文: arXiv

Source: arXiv - 2604.14142v1

概述

本文介绍了 PreRL，一种新颖的强化学习（RL）框架，它直接在语言模型的 预训练 分布 (P(y)) 上进行操作，而不是常规的条件分布 (P(y|x))。通过塑造边际输出空间，作者展示了可以在保持模型广泛生成能力的同时，放大推理能力——这是传统在冻结的 LLM 上进行的 RL 所无法实现的。

关键贡献

预训练空间强化学习 (PreRL)： 首个将奖励驱动的更新应用于冻结的大语言模型的边际分布 (P(y)) 的方法。
理论梯度对齐： 通过证明和实验证据表明 (\nabla \log P(y)) 与 (\nabla \log P(y|x)) 紧密对齐，证明 PreRL 可作为标准强化学习的替代。
负样本强化 (NSR)： 一种针对性的“负样本”信号，能够积极剪枝不合理的推理路径，使反思思考和转移思考分别提升约 ≈ 15 倍和 ≈ 6.5 倍。
双空间强化学习 (DSRL)： 两阶段训练方案——首先运行 NSR‑PreRL 扩展推理视野，然后切换到传统强化学习进行细粒度策略微调。
实证优势： DSRL 在多个推理基准（MathQA、GSM‑8K 和逻辑推理任务）上始终优于强基线（如标准 RLHF、基于 PPO 的微调）。

方法论

起点 – 冻结的 LLM: 基础模型保持不变；其预训练分布 (P(y)) 被视为对所有可能 token 序列的策略。
奖励定义: 一个任务特定的奖励函数 (R(y)) 用来评估生成答案的质量（正确性、逻辑一致性等）。
(P(y)) 的在线更新: 使用类似策略梯度的更新，模型最大化 (\mathbb{E}_{y\sim P}[R(y)])。由于 (\log P(y)) 的梯度可以通过模型自身的 logits 计算，无需额外的前向传播。
负样本强化 (NSR):
- 生成一批负样本（高概率但错误的答案）。
- 施加强负奖励，有效地压低它们的概率质量。
- 这种“剪枝”迫使模型将概率分配到更具多样性、可能正确的推理轨迹上。
双空间 RL (DSRL) 流程:
- 阶段 1 – NSR‑PreRL: 运行若干轮基于 NSR 的更新，以拓宽推理空间并消除明显的死路。
- 阶段 2 – 标准 RL（例如 PPO）: 在已剪枝的策略上对原始奖励进行微调，精确优化条件分布 (P(y|x))。

所有步骤均兼容现有的 transformer 库（例如 HuggingFace 🤗 Transformers），并且相较于典型的 RLHF 运行只需适度的额外计算。

结果与发现

Benchmark	Baseline (PPO‑RLHF)	PreRL (NSR only)	DSRL (NSR → PPO)
GSM‑8K (accuracy)	71.2 %	73.8 %	77.5 %
MathQA (accuracy)	68.5 %	70.1 %	74.3 %
Logical Deduction (exact match)	62.0 %	64.7 %	68.9 %

Transition thoughts（在达到解答之前的不同推理步骤数量）在 NSR‑PreRL 下增加了 14.89×。
Reflection thoughts（自我纠正循环）增长了 6.54×，表明内部的“思考 aloud”行为更多。
消融实验表明，(\log P(y)) 与 (\log P(y|x)) 之间的梯度对齐在整个训练过程中保持 > 0.92 的余弦相似度，验证了理论主张。

实际意义

更快的推理微调: 通过提前剪枝错误答案空间，开发者可以在更少的 RLHF 轮次下实现更高的准确率，从而节省 GPU 时间。
更好的泛化能力: 由于 PreRL 基于边际分布工作，模型仍然保留在微调任务之外生成多样、创意文本的能力——这对需要兼顾事实准确性和开放式生成的聊天机器人非常有用。
即插即用的 RL 组件: NSR‑PreRL 阶段可以直接叠加在任意已有的 LLM 检查点之上，无需重新训练整个模型，这对提供“基础模型 + RL 层”套餐的 SaaS 供应商具有吸引力。
安全与对齐: 负样本强化自然抑制先验概率高的有害或幻觉输出，提供了一种在更昂贵的 RLHF 过程之前使用的轻量级对齐工具。

限制与未来工作

奖励设计依赖性： 该方法仍然依赖精心设计的奖励函数；奖励校准不当可能会误导剪枝过程。
对超大模型的可扩展性： 实验在 7‑B 和 13‑B 参数模型上进行；扩展到 70‑B 以上规模可能需要梯度检查点技巧以保持内存使用可控。
静态语料库偏移： 虽然 PreRL 缓解了分布偏移，但底层的预训练语料库仍是静态的；未来工作可以探索使用流式数据进行持续的预训练空间更新。
更广泛的任务范围： 论文聚焦于推理密集型基准；将 NSR‑PreRL 应用于生成导向任务（如代码合成、故事生成）是一个待探索的方向。

作者

Yuqiao Tan
Minzheng Wang
Bo Liu
Zichen Liu
Tian Liang
Shizhu He
Jun Zhao
Kang Liu

论文信息

arXiv ID: 2604.14142v1
分类: cs.LG, cs.AI, cs.CL
发表时间: 2026年4月15日
PDF: 下载 PDF

[Paper] 从 $P(y|x)$ 到 $P(y)$：探索预训练空间中的强化学习

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 学习具备洞察的推理用于非形式定理证明

[Paper] VEFX-Bench：全方位基准用于通用视频编辑与视觉特效

[Paper] 从基准测试到推理：对越南法律文本的双维度大规模 LLM 评估

[Paper] 检测与抑制 Reward Hacking 的 Gradient Fingerprints