[Paper] 大语言模型能指导自己的探索吗?梯度引导的强化学习用于 LLM 推理
发布: (2025年12月18日 GMT+8 02:44)
6 min read
原文: arXiv
Source: arXiv - 2512.15687v1
概述
一种名为 G2RL(Gradient‑Guided Reinforcement Learning,梯度引导强化学习)的新型强化学习(RL)框架,使大语言模型(LLMs)能够利用训练期间产生的 梯度 来引导自身的探索。通过奖励那些将模型参数指向新方向的样本轨迹,G2RL 能够比传统的熵奖励或外部相似度度量产生更为多样且有效的推理行为。作者在使用 1.7 B‑ 和 4 B‑ 参数的 Qwen‑3 模型时,在一系列数学与推理基准测试上展示了持续的提升。
关键贡献
- Self‑referential exploration signal – 使用模型自身的一阶更新几何(梯度特征)来决定哪些采样响应值得探索。
- Bounded multiplicative reward scaler – 引入正交或相反梯度方向的轨迹会获得提升,而冗余的轨迹则被降权。
- Compatibility with PPO/KL‑control – 基于梯度的奖励能够与标准 PPO 稳定性机制无缝集成,避免了外部启发式方法常见的不稳定性。
- Empirical validation across diverse reasoning tasks – 在 MATH500、AMC、AIME24/25、GPQA 和 MMLU‑pro 上展示了提升,评估指标为 pass@1、maj@16 和 pass@k。
- Geometric analysis of exploration – 证明 G2RL 将策略的更新空间扩展到更多正交方向,同时不牺牲语义连贯性。
方法论
- Forward Pass Feature Extraction – 对每个候选回复,检查模型的最终隐藏层以计算 sensitivity vector(相对于隐藏激活的输出 logits 的 Jacobian)。这几乎不增加额外的计算成本,除正常的前向传播外。
- Gradient‑Based Similarity – 在一批采样的轨迹中,计算这些 sensitivity vector 的两两余弦相似度。相似度低表示这些轨迹会把模型参数推向不同的方向。
- Reward Scaling – 对常规 RL 奖励(例如正确性得分)乘以一个有界的乘法因子(如 1 ± α·(1 – similarity))。新颖度高的轨迹得到更大的因子,新颖度低的轨迹得到更小的因子。
- PPO Update – 将缩放后的奖励输入标准的 Proximal Policy Optimization 循环,并加入 KL‑penalty,以确保学习的稳定性。
- Iterative Sampling – 该过程循环进行,不断将策略重新塑形,使其向尚未被探索的参数空间区域靠拢。
结果与发现
| 基准 | 基线 (entropy‑GRPO) | G2RL (1.7 B) | G2RL (4 B) |
|---|---|---|---|
| MATH500 (pass@1) | 22.3 % | 27.9 % | 34.5 % |
| AMC (maj@16) | 41.8 % | 48.2 % | 55.6 % |
| AIME24 (pass@k) | 18.7 % | 24.3 % | 30.1 % |
| GPQA (pass@1) | 35.4 % | 41.0 % | 46.8 % |
| MMLU‑pro (pass@1) | 62.1 % | 68.9 % | 74.3 % |
- 正交梯度扩展: 采样轨迹之间的平均余弦相似度从约 0.68(entropy)下降到约 0.31(G2RL),表明更新方向更加多样化。
- 语义连贯性保持: 人工评估显示无意义输出并未增加;模型仍然遵循提示上下文。
- 训练开销: 添加梯度特征计算使每次 PPO 迭代的运行时开销增加不到 2 %。
实际意义
- 更好的推理代理: 开发基于大语言模型的辅导系统、代码助手或科学助理时,可以在更少的微调步骤下实现更高的正确性。
- 降低对手工探索奖励的需求: 团队可以放弃基于熵的技巧,直接依赖模型自身的几何特性,从而简化强化学习流水线。
- 可扩展到更大的模型: 由于特征提取成本低,该方法能够在多十亿参数模型上使用,而不会产生过高的计算开销。
- 更高效的数据利用: 通过鼓励真正新颖的更新,G2RL 能够从相同量的标注或自生成数据中提取更多学习信号,降低标注预算。
- 持续学习的潜力: 梯度引导的信号可以用于设备端的自适应,在此类场景中稳定性(KL 控制)尤为关键。
局限性与未来工作
- 梯度近似质量: 该方法依赖一阶敏感性;更高阶效应(例如曲率)被忽略,若考虑这些效应可进一步细化探索。
- 批量大小敏感性: 新颖性奖励取决于采样批次内的多样性;批次过小可能导致噪声较大的比例。
- 领域迁移: 实验聚焦于数学和通用推理;尚不清楚 G2RL 在对话、检索增强生成或多模态任务上的表现。
- 理论保证: 虽然经验正交性有所提升,但在梯度引导奖励下的正式收敛性或最优性保证仍是未解之问。
总体而言,G2RL 为大语言模型开发者提供了一种低开销、引人注目的方式,让模型自身的学习动态驱动更智能的探索,为构建更强大且数据高效的推理系统铺平了道路。
作者
- Zhenwen Liang
- Sidi Lu
- Wenhao Yu
- Kishan Panaganti
- Yujun Zhou
- Haitao Mi
- Dong Yu
论文信息
- arXiv ID: 2512.15687v1
- 分类: cs.LG, cs.AI
- 出版日期: 2025年12月17日
- PDF: Download PDF