[Paper] Rubric-Grounded 强化学习:结构化评判奖励用于可推广推理

发布: (2026年5月9日 GMT+8 01:48)
7 分钟阅读
原文: arXiv

Source: arXiv - 2605.08061v1

请提供您希望翻译的具体文本内容,我将为您翻译成简体中文。

概述

本文介绍了 Rubric‑Grounded Reinforcement Learning (RL),这是一种通过将奖励信号拆分为多个可验证的标准(即“评分标准”),并让冻结的大语言模型(LLM)充当公正评审者来训练语言模型的新方法。通过对每个标准给予部分分数,而不是单一的二元或整体分数,作者展示了模型能够学习更稳健、可推广的推理能力。

关键贡献

  • Rubric‑grounded reward 框架:形式化了一种多准则奖励,由不可变的 LLM 判官生成,判官基于政策从未看到的外部文档进行条件化。
  • 自动 Rubric 提取:从 10 万篇科学技术文本(OSTI)语料库中推导任务特定的 Rubric。
  • GRPO 训练流水线:将 Group Relative Policy Optimization(GRPO)应用于使用 Rubric‑grounded 奖励微调 Llama‑3.1‑8B‑Instruct。
  • 实证提升:在留出的 Rubric 评估上实现 71.7% 的归一化奖励,并在四个无关的推理基准(GSM8K、MATH、GPQA‑Main、GPQA‑Diamond)上提升性能。
  • 可迁移性证据:证明结构化、文档支撑的奖励能够诱导推理能力,并在训练语料库之外实现泛化。

方法论

  1. 评分标准创建

    • 作者解析约 100 k 篇科学/技术文档,以提取 标准(例如,正确性、完整性、引用质量)。
    • 为每个标准分配一个权重,以反映其在目标任务中的重要性。
  2. LLM 判官

    • 一个大型、冻结的 LLM(“判官”)接收模型的响应 加上 隐藏的依据文档。
    • 它对响应在每个评分标准上进行打分,生成部分奖励的向量。
  3. 策略优化

    • 策略(Llama‑3.1‑8B‑Instruct)从未看到依据文档;它仅接收多维奖励。
    • 训练使用 Group Relative Policy Optimization (GRPO),这是一种 RL 算法,可在轨迹组之间对奖励进行归一化,以在噪声和多标准信号下稳定学习。
  4. 评估

    • 一个保留的评分标准集合用于衡量微调模型与判官评分的一致程度。
    • 标准推理基准(GSM8K、MATH、GPQA)用于测试模型在训练数据未覆盖任务上的迁移能力。

结果与发现

指标Base Llama‑3.1‑8B‑InstructRubric‑Grounded (GRPO)
标准化评分标准奖励(保留集)71.7 %
GSM8K 准确率48 %≈55 %
MATH 准确率22 %≈28 %
GPQA‑Main(多项选择)38 %≈44 %
GPQA‑Diamond(更难)30 %≈36 %
  • 尽管这些任务超出原始文档语料库范围,基于评分标准的模型在所有四个下游推理任务上始终优于基础模型。
  • 多准则奖励提供了更丰富的学习信号,使策略能够纠正特定的弱点(例如,缺少步骤、论证不足),而不仅仅是学习“答案正确”。

实际影响

  • 更可靠的微调:开发者可以为期望的行为(例如安全性、事实性、代码风格)定义明确的评判标准,并让 LLM 评审执行这些标准,从而降低对噪声人类反馈的依赖。
  • 部分奖励学习:通过奖励中间推理步骤,模型在链式思考生成方面表现更佳,这对调试、教育以及复杂决策支持系统具有重要价值。
  • 领域特定专长:该框架可以摄取专有文档(API 规范、内部政策),生成指导模型的评判标准,而无需将原始文档暴露给模型本身——对隐私敏感行业十分有用。
  • 可迁移推理:在一个领域中基于结构化奖励进行训练,可提升模型在不相关推理任务上的表现,这表明一种成本效益高的方式,能够在无需大规模多任务数据集的情况下提升通用问题解决能力。

限制与未来工作

  • Judge 依赖性:奖励的质量取决于冻结的 LLM 判官;判官中的偏差或错误会传播到策略中。
  • Rubric 设计开销:从任意语料库中自动提取有意义的评判标准仍然非平凡,可能需要领域专业知识。
  • 可扩展性:实验仅限于 8 B 参数模型;尚不清楚该方法在更大模型或更复杂的多模态任务中如何扩展。
  • 未来方向:作者建议探索自适应 Rubric 权重、多判官集成以提升鲁棒性,以及将该方法应用于代码生成、对话安全和多模态推理。

作者

  • Manish Bhattarai
  • Ismael Boureima
  • Nishath Rajiv Ranasinghe
  • Scott Pakin
  • Dan O’Malley

论文信息

  • arXiv ID: 2605.08061v1
  • 分类: cs.AI
  • 出版日期: 2026年5月8日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »