[Paper] 探索 vs. 利用：通过 Clipping、Entropy 和虚假奖励重新思考 RLVR

发布: 1个月前 (2025年12月19日 GMT+8 02:59)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.16912v1

概览

本文探讨了为何两种看似违背直觉的技巧——伪奖励（奖励错误的目标）和熵最小化（导致语言模型输出过于自信的预测）——在使用 可验证奖励强化学习 (RLVR) 对大型语言模型（LLM）进行微调时，都能提升其推理能力。通过剖析策略熵、裁剪偏差以及奖励错位之间的相互作用，作者揭示了这些技巧得以奏效的隐藏动力学，并提出了一种更为原则性的训练方法，以在数学密集或逻辑密集的任务上训练 LLM。

关键贡献

理论分析：将伪奖励下的裁剪偏差与策略熵的系统性降低联系起来。
实证证据：仅靠熵的降低并不能保证更好的推理；其收益来源于与伪奖励的交互。
奖励错位模型：解释了伪奖励如何充当正则化器，防止模型对受污染（错误）奖励信号过度拟合。
指南：为设计 RLVR 流程提供建议，刻意控制熵和奖励塑形，以实现更可靠的 LLM 推理。
开源代码与可复现性包（随论文一起发布），用于在标准数学推理基准上复现实验。

方法论

设置 – 作者使用标准的 RLVR 循环：LLM 生成解答，验证器检查正确性，并分配奖励。研究了两种奖励变体：
- 真实奖励：正确答案得 1，其他情况得 0。
- 虚假奖励：一种噪声信号，有时会奖励错误答案（例如，基于表面 token 模式）。
裁剪与熵控制 – 在策略更新期间，梯度会被裁剪（如 PPO 中）以稳定训练。作者改变裁剪阈值，并显式在损失中加入熵正则化项。
度量指标 –
- 策略熵（生成序列中每个 token 的平均熵）。
- 推理准确率，在基准数据集（MATH、GSM‑8K 等）上的表现。
- 裁剪偏差，衡量未裁剪梯度与裁剪后梯度幅度的平均差异。
实验 – 对一组配置网格（不同的裁剪阈值、熵系数和奖励类型）在三种 LLM 大小（7B、13B、34B）上进行评估。每个实验重复三次以考虑随机性。
分析 – 使用相关性和因果推断技术（例如中介分析）来隔离熵降低是否在虚假奖励带来的性能提升中起到中介作用。

结果与发现

条件	平均熵 ↓	推理准确率 ↑
真值奖励，无熵惩罚	基线	42%
真值奖励 + 强熵正则化	–15%	44%（无显著提升）
虚假奖励，默认裁剪	–22%	48%
虚假奖励 + 更严格的裁剪（阈值更低）	–30%	52%
虚假奖励 + 显式熵最小化	–35%	53%

裁剪偏差 在裁剪阈值收紧时会增加，这会自动在虚假奖励下降低策略熵。
仅熵（没有虚假奖励）只能带来边际改进，证实熵降低是 必要但不充分 的。
奖励不对齐模型 预测，虚假奖励类似于一种“软标签”，它抑制模型对验证器噪声信号的过度信任，从而实现更稳健的推理。实证曲线与模型预测相吻合。

实际影响

Fine‑tuning pipelines: 在将 RLVR 应用于数学或代码生成的 LLM 时，刻意引入适度的奖励噪声（例如，基于部分语法检查的奖励）并且收紧梯度裁剪。此组合可在不牺牲模型探索替代解法路径能力的前提下，产生确定性的输出。
Entropy regularization: 适度使用熵惩罚。除非与虚假奖励配合，否则激进的熵最小化会损害性能。
Safety & alignment: 虚假奖励可视为安全阀，防止模型对可能有缺陷的验证器进行过度优化，这在验证逻辑仍在开发中的情况下是一个有用的技巧。
Tooling: 已发布的代码与主流 RL 库（TRL、HuggingFace Transformers）集成，并提供即插即用的 “RLVR‑Clipping‑Scheduler”，可根据观测到的策略熵自动调整裁剪阈值。

限制与未来工作

实验仅限于 合成数学基准；真实世界任务（例如法律推理、科学文献综合）可能表现出不同的验证器噪声特性。
分析假设 奖励分布是平稳的；实际上，验证器在部署过程中会演化，这可能改变最佳的裁剪/熵平衡。
当前的奖励错位模型将虚假奖励视为简单的加性噪声项；更丰富的模型（例如上下文错位）留待未来研究。
将规模扩展到 数千亿参数 仍未经过测试；作者推测相同的动力学仍然适用，但计划在下一代大模型上进行验证。

底线：通过阐明为何“糟糕”的奖励和“低熵”策略都能提升 LLM 推理能力，本工作为开发者在 RLVR 流水线中提供了具体的调节手段——收紧裁剪并允许适量的奖励噪声——从而获得更可靠、确定且具备数学能力的语言模型。

作者

Peter Chen
Xiaopeng Li
Ziniu Li
Wotao Yin
Xi Chen
Tianyi Lin

论文信息

arXiv ID: 2512.16912v1
Categories: cs.LG, cs.AI, cs.CL
Published: 2025年12月18日
PDF: 下载 PDF

[Paper] 探索 vs. 利用：通过 Clipping、Entropy 和虚假奖励重新思考 RLVR

概览

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] 当推理遇到其法则

[论文] ShareChat：野外聊天机器人对话数据集

[Paper] Bangla MedER：Multi-BERT Ensemble Approach用于Bangla医学实体识别

[Paper] AncientBench：面向已发掘和已传承中文语料库的全面评估