[Paper] Rubric-Grounded 强化学习：结构化评判奖励用于可推广推理

发布: 3天前 (2026年5月9日 GMT+8 01:48)

7 分钟阅读

原文: arXiv

Source: arXiv - 2605.08061v1

请提供您希望翻译的具体文本内容，我将为您翻译成简体中文。

概述

本文介绍了 Rubric‑Grounded Reinforcement Learning (RL)，这是一种通过将奖励信号拆分为多个可验证的标准（即“评分标准”），并让冻结的大语言模型（LLM）充当公正评审者来训练语言模型的新方法。通过对每个标准给予部分分数，而不是单一的二元或整体分数，作者展示了模型能够学习更稳健、可推广的推理能力。

关键贡献

Rubric‑grounded reward 框架：形式化了一种多准则奖励，由不可变的 LLM 判官生成，判官基于政策从未看到的外部文档进行条件化。
自动 Rubric 提取：从 10 万篇科学技术文本（OSTI）语料库中推导任务特定的 Rubric。
GRPO 训练流水线：将 Group Relative Policy Optimization（GRPO）应用于使用 Rubric‑grounded 奖励微调 Llama‑3.1‑8B‑Instruct。
实证提升：在留出的 Rubric 评估上实现 71.7% 的归一化奖励，并在四个无关的推理基准（GSM8K、MATH、GPQA‑Main、GPQA‑Diamond）上提升性能。
可迁移性证据：证明结构化、文档支撑的奖励能够诱导推理能力，并在训练语料库之外实现泛化。

方法论

评分标准创建
- 作者解析约 100 k 篇科学/技术文档，以提取标准（例如，正确性、完整性、引用质量）。
- 为每个标准分配一个权重，以反映其在目标任务中的重要性。
LLM 判官
- 一个大型、冻结的 LLM（“判官”）接收模型的响应加上隐藏的依据文档。
- 它对响应在每个评分标准上进行打分，生成部分奖励的向量。
策略优化
- 策略（Llama‑3.1‑8B‑Instruct）从未看到依据文档；它仅接收多维奖励。
- 训练使用 Group Relative Policy Optimization (GRPO)，这是一种 RL 算法，可在轨迹组之间对奖励进行归一化，以在噪声和多标准信号下稳定学习。
评估
- 一个保留的评分标准集合用于衡量微调模型与判官评分的一致程度。
- 标准推理基准（GSM8K、MATH、GPQA）用于测试模型在训练数据未覆盖任务上的迁移能力。

结果与发现

指标	Base Llama‑3.1‑8B‑Instruct	Rubric‑Grounded (GRPO)
标准化评分标准奖励（保留集）	—	71.7 %
GSM8K 准确率	48 %	≈55 %
MATH 准确率	22 %	≈28 %
GPQA‑Main（多项选择）	38 %	≈44 %
GPQA‑Diamond（更难）	30 %	≈36 %

尽管这些任务超出原始文档语料库范围，基于评分标准的模型在所有四个下游推理任务上始终优于基础模型。
多准则奖励提供了更丰富的学习信号，使策略能够纠正特定的弱点（例如，缺少步骤、论证不足），而不仅仅是学习“答案正确”。

实际影响

更可靠的微调：开发者可以为期望的行为（例如安全性、事实性、代码风格）定义明确的评判标准，并让 LLM 评审执行这些标准，从而降低对噪声人类反馈的依赖。
部分奖励学习：通过奖励中间推理步骤，模型在链式思考生成方面表现更佳，这对调试、教育以及复杂决策支持系统具有重要价值。
领域特定专长：该框架可以摄取专有文档（API 规范、内部政策），生成指导模型的评判标准，而无需将原始文档暴露给模型本身——对隐私敏感行业十分有用。
可迁移推理：在一个领域中基于结构化奖励进行训练，可提升模型在不相关推理任务上的表现，这表明一种成本效益高的方式，能够在无需大规模多任务数据集的情况下提升通用问题解决能力。

限制与未来工作

Judge 依赖性：奖励的质量取决于冻结的 LLM 判官；判官中的偏差或错误会传播到策略中。
Rubric 设计开销：从任意语料库中自动提取有意义的评判标准仍然非平凡，可能需要领域专业知识。
可扩展性：实验仅限于 8 B 参数模型；尚不清楚该方法在更大模型或更复杂的多模态任务中如何扩展。
未来方向：作者建议探索自适应 Rubric 权重、多判官集成以提升鲁棒性，以及将该方法应用于代码生成、对话安全和多模态推理。

作者

Manish Bhattarai
Ismael Boureima
Nishath Rajiv Ranasinghe
Scott Pakin
Dan O’Malley

论文信息

arXiv ID: 2605.08061v1
分类: cs.AI
出版日期: 2026年5月8日
PDF: 下载 PDF

[Paper] Rubric-Grounded 强化学习：结构化评判奖励用于可推广推理

概述

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] 归一化轨迹模型

[Paper] Zero-Shot 想象语音解码 via 想象到聆听的MEG映射

[Paper] GRAPHLCP：结构感知的图上局部化 Conformal Prediction

[论文] VecCISC：提升基于置信度的自一致性——推理轨迹聚类与候选答案选择