[Paper] 使用 Rubric Rewards 训练 AI 合科学家

发布: (2025年12月30日 GMT+8 02:59)
8 min read
原文: arXiv

Source: arXiv - 2512.23707v1

请提供您希望翻译的具体文本内容,我将按照要求保留链接并进行简体中文翻译。

Overview

本文提出了一种将大型语言模型(LLM)转化为“AI 合作者”的新方法,使其能够根据高层次目标和约束条件起草研究计划。通过自动从已有论文中提取目标陈述和评分标准,作者使用强化学习(RL)对模型进行训练,使其能够自我评分输出内容——从而消除昂贵的人类标注需求。人类专家和下游的“评审”模型的实验表明,经过微调的系统在机器学习和医学领域均能生成显著更好、更可用的计划。

关键贡献

  • 自动语料库构建: 一个从研究论文中挖掘 (i) 明确的研究目标 和 (ii) 特定领域的评分标准的流水线,创建一个大规模、多样化的训练集,无需人工标注。
  • 自评强化学习框架: 使用基模型的冻结副本作为“评分器”,并将提取的评分标准作为奖励信号,实现具有生成器‑验证器差距的强化学习。
  • 基于真实目标的实证验证: 人类专家评估了 225 h 的机器学习研究目标生成计划,70 % 的情况下更倾向于微调后的 Qwen3‑30B‑A3B 模型。
  • 跨领域泛化: 相同的训练配方提升了医学研究目标和最新 arXiv 预印本的计划质量,前沿模型评审团测得相对提升 12‑22 %。
  • 可扩展、无人参与的训练循环: 证明了全自动流水线能够在无需持续人工监督的情况下迭代提升 AI 合作者的能力。

方法论

  1. 数据挖掘:

    • 爬取 arXiv 和 PubMed‑style 仓库。
    • 使用启发式方法和轻量级 NLP 分类器定位陈述研究目标的章节(例如 “We aim to…”)以及关联的评估标准(rubrics)。
    • 将每个目标与其 rubric 配对,形成 goal‑rubric 训练示例。
  2. 基础模型与冻结器:

    • 从开源的 Qwen3‑30B‑A3B 大语言模型开始。
    • 克隆模型;一份保持冻结状态,充当 grader,另一份作为需要微调的 generator
  3. 自我评分的强化学习:

    • generator 根据目标生成研究计划。
    • 冻结的 grader 使用基于提示的评估(例如 “Does the plan satisfy criterion X?”)根据 rubric 为计划打分。
    • 基于 rubric 的分数作为奖励信号,用于 PPO‑style RL 更新。
  4. 评估循环:

    • 人类专家对基础模型和微调模型在一组机器学习目标上的计划进行排序。
    • 对于医学和未见过的 arXiv 目标,由一组强大的前沿模型(如 GPT‑4‑Turbo、Claude‑3)进行成对偏好判断。

整个流水线端到端运行,在初始数据挖掘阶段之后无需任何人工标注。

结果与发现

评估微调模型的偏好相对提升
人类专家(机器学习目标)70 % 的两两比较
前沿模型评审团(医学目标)相较基线偏好提升 +12 % 至 +22 %12‑22 %
评分标准批准(人工检查)84 % 的自动提取评分标准被视为有效

关键要点:

  • 自评强化学习循环可靠地推动生成器朝向更好满足明确标准的计划发展。
  • 该方法在各领域均有效,即使缺乏直接执行反馈(例如运行实验)也能适用。
  • 大多数自动提取的评分标准质量高,验证了大规模无监督数据创建的可行性。

实际意义

  • Rapid Ideation for Developers: 团队可以将高级研究问题(例如“降低 transformer 推理的延迟”)输入模型,获得一个结构化、约束感知的计划,可直接用于头脑风暴或冲刺规划。
  • Automated Grant & Proposal Drafting: 通过将评分标准替换为资助机构的评审标准,系统能够生成已经符合评审期望的初稿提案。
  • Cross‑Disciplinary Knowledge Transfer: 由于模型从多样化语料中学习,它可以将一种领域(如医学影像)的技术方法建议给另一领域(如计算机视觉),加速跨学科创新。
  • Reduced Human Annotation Costs: 企业可以在不雇佣大型标注团队的情况下构建特定领域的 AI 助手;该流水线直接从文献中获取所需的监督信息。
  • Plug‑and‑Play for Existing LLMs: 该方法适用于任何足够强大的基础模型,为希望在 AI 助手中加入“研究规划”功能的产品团队提供可复用的方案。

限制与未来工作

  • 评分标准质量差异: 虽然84 % 通过了人工理性检查,但其余噪声评分标准可能误导奖励信号,尤其是在细分子领域。
  • 评分器的可扩展性: 使用冻结的 LLM 作为评分器会产生与计划长度成比例的推理成本;更高效的评分机制(例如学习的奖励模型)可以加快训练速度。
  • 对文本质量的评估偏差: 偏好判断侧重于可读性和评分标准的符合度,而非下游实验成功;将计划与实际实验结果关联仍是一个未解决的挑战。
  • 领域特定约束: 某些领域(例如监管严格的生物技术)需要难以在简单评分标准中捕获的约束;将流水线扩展到处理形式约束语言是一个有前景的方向。

总体而言,本文展示了一条实用的、自动化的路径,朝着更强大的 AI 协同科学家迈进,为开发者将研究规划智能直接嵌入其工具打开了大门。

作者

  • Shashwat Goel
  • Rishi Hazra
  • Dulhan Jayalath
  • Timon Willi
  • Parag Jain
  • William F. Shen
  • Ilias Leontiadis
  • Francesco Barbieri
  • Yoram Bachrach
  • Jonas Geiping
  • Chenxi Whitehouse

论文信息

  • arXiv ID: 2512.23707v1
  • 分类: cs.LG, cs.CL, cs.HC
  • 发表时间: 2025年12月29日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »