[Paper] 探索 vs. 利用:通过 Clipping、Entropy 和 虚假奖励 重新思考 RLVR

发布: (2025年12月19日 GMT+8 02:59)
7 min read
原文: arXiv

Source: arXiv - 2512.16912v1

概览

本文探讨了为何两种看似违背直觉的技巧——伪奖励(奖励错误的目标)和熵最小化(导致语言模型输出过于自信的预测)——在使用 可验证奖励强化学习 (RLVR) 对大型语言模型(LLM)进行微调时,都能提升其推理能力。通过剖析策略熵、裁剪偏差以及奖励错位之间的相互作用,作者揭示了这些技巧得以奏效的隐藏动力学,并提出了一种更为原则性的训练方法,以在数学密集或逻辑密集的任务上训练 LLM。

关键贡献

  • 理论分析:将伪奖励下的裁剪偏差与策略熵的系统性降低联系起来。
  • 实证证据:仅靠熵的降低并不能保证更好的推理;其收益来源于与伪奖励的交互
  • 奖励错位模型:解释了伪奖励如何充当正则化器,防止模型对受污染(错误)奖励信号过度拟合。
  • 指南:为设计 RLVR 流程提供建议,刻意控制熵和奖励塑形,以实现更可靠的 LLM 推理。
  • 开源代码与可复现性包(随论文一起发布),用于在标准数学推理基准上复现实验。

方法论

  1. 设置 – 作者使用标准的 RLVR 循环:LLM 生成解答,验证器检查正确性,并分配奖励。研究了两种奖励变体:

    • 真实奖励:正确答案得 1,其他情况得 0。
    • 虚假奖励:一种噪声信号,有时会奖励错误答案(例如,基于表面 token 模式)。
  2. 裁剪与熵控制 – 在策略更新期间,梯度会被裁剪(如 PPO 中)以稳定训练。作者改变裁剪阈值,并显式在损失中加入熵正则化项。

  3. 度量指标

    • 策略熵(生成序列中每个 token 的平均熵)。
    • 推理准确率,在基准数据集(MATH、GSM‑8K 等)上的表现。
    • 裁剪偏差,衡量未裁剪梯度与裁剪后梯度幅度的平均差异。
  4. 实验 – 对一组配置网格(不同的裁剪阈值、熵系数和奖励类型)在三种 LLM 大小(7B、13B、34B)上进行评估。每个实验重复三次以考虑随机性。

  5. 分析 – 使用相关性和因果推断技术(例如中介分析)来隔离熵降低是否在虚假奖励带来的性能提升中起到中介作用。

结果与发现

条件平均熵 ↓推理准确率 ↑
真值奖励,无熵惩罚基线42%
真值奖励 + 强熵正则化–15%44%(无显著提升)
虚假奖励,默认裁剪–22%48%
虚假奖励 + 更严格的裁剪(阈值更低)–30%52%
虚假奖励 + 显式熵最小化–35%53%
  • 裁剪偏差 在裁剪阈值收紧时会增加,这会 自动 在虚假奖励下降低策略熵。
  • 仅熵(没有虚假奖励)只能带来边际改进,证实熵降低是 必要但不充分 的。
  • 奖励不对齐模型 预测,虚假奖励类似于一种“软标签”,它抑制模型对验证器噪声信号的过度信任,从而实现更稳健的推理。实证曲线与模型预测相吻合。

实际影响

  • Fine‑tuning pipelines: 在将 RLVR 应用于数学或代码生成的 LLM 时,刻意引入适度的奖励噪声(例如,基于部分语法检查的奖励)并且收紧梯度裁剪。此组合可在不牺牲模型探索替代解法路径能力的前提下,产生确定性的输出。
  • Entropy regularization: 适度使用熵惩罚。除非与虚假奖励配合,否则激进的熵最小化会损害性能。
  • Safety & alignment: 虚假奖励可视为安全阀,防止模型对可能有缺陷的验证器进行过度优化,这在验证逻辑仍在开发中的情况下是一个有用的技巧。
  • Tooling: 已发布的代码与主流 RL 库(TRL、HuggingFace Transformers)集成,并提供即插即用的 “RLVR‑Clipping‑Scheduler”,可根据观测到的策略熵自动调整裁剪阈值。

限制与未来工作

  • 实验仅限于 合成数学基准;真实世界任务(例如法律推理、科学文献综合)可能表现出不同的验证器噪声特性。
  • 分析假设 奖励分布是平稳的;实际上,验证器在部署过程中会演化,这可能改变最佳的裁剪/熵平衡。
  • 当前的奖励错位模型将虚假奖励视为简单的加性噪声项;更丰富的模型(例如上下文错位)留待未来研究。
  • 将规模扩展到 数千亿参数 仍未经过测试;作者推测相同的动力学仍然适用,但计划在下一代大模型上进行验证。

底线:通过阐明为何“糟糕”的奖励和“低熵”策略都能提升 LLM 推理能力,本工作为开发者在 RLVR 流水线中提供了具体的调节手段——收紧裁剪并允许适量的奖励噪声——从而获得更可靠、确定且具备数学能力的语言模型。

作者

  • Peter Chen
  • Xiaopeng Li
  • Ziniu Li
  • Wotao Yin
  • Xi Chen
  • Tianyi Lin

论文信息

  • arXiv ID: 2512.16912v1
  • Categories: cs.LG, cs.AI, cs.CL
  • Published: 2025年12月18日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »