[Paper] Rubric-Grounded 强化学习:结构化评判奖励用于可推广推理
发布: (2026年5月9日 GMT+8 01:48)
7 分钟阅读
原文: arXiv
Source: arXiv - 2605.08061v1
请提供您希望翻译的具体文本内容,我将为您翻译成简体中文。
概述
本文介绍了 Rubric‑Grounded Reinforcement Learning (RL),这是一种通过将奖励信号拆分为多个可验证的标准(即“评分标准”),并让冻结的大语言模型(LLM)充当公正评审者来训练语言模型的新方法。通过对每个标准给予部分分数,而不是单一的二元或整体分数,作者展示了模型能够学习更稳健、可推广的推理能力。
关键贡献
- Rubric‑grounded reward 框架:形式化了一种多准则奖励,由不可变的 LLM 判官生成,判官基于政策从未看到的外部文档进行条件化。
- 自动 Rubric 提取:从 10 万篇科学技术文本(OSTI)语料库中推导任务特定的 Rubric。
- GRPO 训练流水线:将 Group Relative Policy Optimization(GRPO)应用于使用 Rubric‑grounded 奖励微调 Llama‑3.1‑8B‑Instruct。
- 实证提升:在留出的 Rubric 评估上实现 71.7% 的归一化奖励,并在四个无关的推理基准(GSM8K、MATH、GPQA‑Main、GPQA‑Diamond)上提升性能。
- 可迁移性证据:证明结构化、文档支撑的奖励能够诱导推理能力,并在训练语料库之外实现泛化。
方法论
-
评分标准创建
- 作者解析约 100 k 篇科学/技术文档,以提取 标准(例如,正确性、完整性、引用质量)。
- 为每个标准分配一个权重,以反映其在目标任务中的重要性。
-
LLM 判官
- 一个大型、冻结的 LLM(“判官”)接收模型的响应 加上 隐藏的依据文档。
- 它对响应在每个评分标准上进行打分,生成部分奖励的向量。
-
策略优化
- 策略(Llama‑3.1‑8B‑Instruct)从未看到依据文档;它仅接收多维奖励。
- 训练使用 Group Relative Policy Optimization (GRPO),这是一种 RL 算法,可在轨迹组之间对奖励进行归一化,以在噪声和多标准信号下稳定学习。
-
评估
- 一个保留的评分标准集合用于衡量微调模型与判官评分的一致程度。
- 标准推理基准(GSM8K、MATH、GPQA)用于测试模型在训练数据未覆盖任务上的迁移能力。
结果与发现
| 指标 | Base Llama‑3.1‑8B‑Instruct | Rubric‑Grounded (GRPO) |
|---|---|---|
| 标准化评分标准奖励(保留集) | — | 71.7 % |
| GSM8K 准确率 | 48 % | ≈55 % |
| MATH 准确率 | 22 % | ≈28 % |
| GPQA‑Main(多项选择) | 38 % | ≈44 % |
| GPQA‑Diamond(更难) | 30 % | ≈36 % |
- 尽管这些任务超出原始文档语料库范围,基于评分标准的模型在所有四个下游推理任务上始终优于基础模型。
- 多准则奖励提供了更丰富的学习信号,使策略能够纠正特定的弱点(例如,缺少步骤、论证不足),而不仅仅是学习“答案正确”。
实际影响
- 更可靠的微调:开发者可以为期望的行为(例如安全性、事实性、代码风格)定义明确的评判标准,并让 LLM 评审执行这些标准,从而降低对噪声人类反馈的依赖。
- 部分奖励学习:通过奖励中间推理步骤,模型在链式思考生成方面表现更佳,这对调试、教育以及复杂决策支持系统具有重要价值。
- 领域特定专长:该框架可以摄取专有文档(API 规范、内部政策),生成指导模型的评判标准,而无需将原始文档暴露给模型本身——对隐私敏感行业十分有用。
- 可迁移推理:在一个领域中基于结构化奖励进行训练,可提升模型在不相关推理任务上的表现,这表明一种成本效益高的方式,能够在无需大规模多任务数据集的情况下提升通用问题解决能力。
限制与未来工作
- Judge 依赖性:奖励的质量取决于冻结的 LLM 判官;判官中的偏差或错误会传播到策略中。
- Rubric 设计开销:从任意语料库中自动提取有意义的评判标准仍然非平凡,可能需要领域专业知识。
- 可扩展性:实验仅限于 8 B 参数模型;尚不清楚该方法在更大模型或更复杂的多模态任务中如何扩展。
- 未来方向:作者建议探索自适应 Rubric 权重、多判官集成以提升鲁棒性,以及将该方法应用于代码生成、对话安全和多模态推理。
作者
- Manish Bhattarai
- Ismael Boureima
- Nishath Rajiv Ranasinghe
- Scott Pakin
- Dan O’Malley
论文信息
- arXiv ID: 2605.08061v1
- 分类: cs.AI
- 出版日期: 2026年5月8日
- PDF: 下载 PDF