[Paper] 探索 vs. 利用:通过 Clipping、Entropy 和 虚假奖励 重新思考 RLVR
Source: arXiv - 2512.16912v1
概览
本文探讨了为何两种看似违背直觉的技巧——伪奖励(奖励错误的目标)和熵最小化(导致语言模型输出过于自信的预测)——在使用 可验证奖励强化学习 (RLVR) 对大型语言模型(LLM)进行微调时,都能提升其推理能力。通过剖析策略熵、裁剪偏差以及奖励错位之间的相互作用,作者揭示了这些技巧得以奏效的隐藏动力学,并提出了一种更为原则性的训练方法,以在数学密集或逻辑密集的任务上训练 LLM。
关键贡献
- 理论分析:将伪奖励下的裁剪偏差与策略熵的系统性降低联系起来。
- 实证证据:仅靠熵的降低并不能保证更好的推理;其收益来源于与伪奖励的交互。
- 奖励错位模型:解释了伪奖励如何充当正则化器,防止模型对受污染(错误)奖励信号过度拟合。
- 指南:为设计 RLVR 流程提供建议,刻意控制熵和奖励塑形,以实现更可靠的 LLM 推理。
- 开源代码与可复现性包(随论文一起发布),用于在标准数学推理基准上复现实验。
方法论
-
设置 – 作者使用标准的 RLVR 循环:LLM 生成解答,验证器检查正确性,并分配奖励。研究了两种奖励变体:
- 真实奖励:正确答案得 1,其他情况得 0。
- 虚假奖励:一种噪声信号,有时会奖励错误答案(例如,基于表面 token 模式)。
-
裁剪与熵控制 – 在策略更新期间,梯度会被裁剪(如 PPO 中)以稳定训练。作者改变裁剪阈值,并显式在损失中加入熵正则化项。
-
度量指标 –
- 策略熵(生成序列中每个 token 的平均熵)。
- 推理准确率,在基准数据集(MATH、GSM‑8K 等)上的表现。
- 裁剪偏差,衡量未裁剪梯度与裁剪后梯度幅度的平均差异。
-
实验 – 对一组配置网格(不同的裁剪阈值、熵系数和奖励类型)在三种 LLM 大小(7B、13B、34B)上进行评估。每个实验重复三次以考虑随机性。
-
分析 – 使用相关性和因果推断技术(例如中介分析)来隔离熵降低是否在虚假奖励带来的性能提升中起到中介作用。
结果与发现
| 条件 | 平均熵 ↓ | 推理准确率 ↑ |
|---|---|---|
| 真值奖励,无熵惩罚 | 基线 | 42% |
| 真值奖励 + 强熵正则化 | –15% | 44%(无显著提升) |
| 虚假奖励,默认裁剪 | –22% | 48% |
| 虚假奖励 + 更严格的裁剪(阈值更低) | –30% | 52% |
| 虚假奖励 + 显式熵最小化 | –35% | 53% |
- 裁剪偏差 在裁剪阈值收紧时会增加,这会 自动 在虚假奖励下降低策略熵。
- 仅熵(没有虚假奖励)只能带来边际改进,证实熵降低是 必要但不充分 的。
- 奖励不对齐模型 预测,虚假奖励类似于一种“软标签”,它抑制模型对验证器噪声信号的过度信任,从而实现更稳健的推理。实证曲线与模型预测相吻合。
实际影响
- Fine‑tuning pipelines: 在将 RLVR 应用于数学或代码生成的 LLM 时,刻意引入适度的奖励噪声(例如,基于部分语法检查的奖励)并且收紧梯度裁剪。此组合可在不牺牲模型探索替代解法路径能力的前提下,产生确定性的输出。
- Entropy regularization: 适度使用熵惩罚。除非与虚假奖励配合,否则激进的熵最小化会损害性能。
- Safety & alignment: 虚假奖励可视为安全阀,防止模型对可能有缺陷的验证器进行过度优化,这在验证逻辑仍在开发中的情况下是一个有用的技巧。
- Tooling: 已发布的代码与主流 RL 库(TRL、HuggingFace Transformers)集成,并提供即插即用的 “RLVR‑Clipping‑Scheduler”,可根据观测到的策略熵自动调整裁剪阈值。
限制与未来工作
- 实验仅限于 合成数学基准;真实世界任务(例如法律推理、科学文献综合)可能表现出不同的验证器噪声特性。
- 分析假设 奖励分布是平稳的;实际上,验证器在部署过程中会演化,这可能改变最佳的裁剪/熵平衡。
- 当前的奖励错位模型将虚假奖励视为简单的加性噪声项;更丰富的模型(例如上下文错位)留待未来研究。
- 将规模扩展到 数千亿参数 仍未经过测试;作者推测相同的动力学仍然适用,但计划在下一代大模型上进行验证。
底线:通过阐明为何“糟糕”的奖励和“低熵”策略都能提升 LLM 推理能力,本工作为开发者在 RLVR 流水线中提供了具体的调节手段——收紧裁剪并允许适量的奖励噪声——从而获得更可靠、确定且具备数学能力的语言模型。
作者
- Peter Chen
- Xiaopeng Li
- Ziniu Li
- Wotao Yin
- Xi Chen
- Tianyi Lin
论文信息
- arXiv ID: 2512.16912v1
- Categories: cs.LG, cs.AI, cs.CL
- Published: 2025年12月18日
- PDF: 下载 PDF