[Paper] LongRLVR:长上下文强化学习需要可验证的上下文奖励

发布: (2026年3月3日 GMT+8 02:07)
7 分钟阅读
原文: arXiv

Source: arXiv - 2603.02146v1

概览

论文 LongRLVR 解决了在让大型语言模型(LLM)对文档进行推理时的一个根本性障碍。虽然之前的可验证奖励强化学习(RLVR)方法提升了事实推理能力,但当答案需要在冗长的上下文中定位并使用分散的信息时,它们会遇到困难。作者指出,仅对最终答案进行奖励会导致学习信号过于稀疏,并提出了一种密集的“上下文奖励”,明确表扬模型挑选正确证据的行为。

关键贡献

  • 理论分析 证明仅使用答案奖励会导致在长上下文任务中,针对 grounding(证据选择)步骤的梯度消失。
  • LongRLVR 框架 将稀疏的答案奖励与密集的、可验证的上下文奖励相结合,为证据检索提供明确的学习信号。
  • 实证验证 在多个长上下文基准(RULER‑QA、LongBench v2)上使用 Qwen 和 LLaMA 系列模型进行实验,展示出一致且显著的性能提升(例如 14B 模型在 RULER‑QA 上从 73.17 提升至 88.90)。
  • 开源实现 已在 GitHub 上发布,便于复现并轻松集成到现有的 RLVR 流程中。

方法论

  1. 问题设定 – 任务被框定为两阶段过程:(a) 定位:从长上下文中选择相关段落;(b) 答案生成:生成最终答案。
  2. 奖励设计
    • 答案奖励 (R_ans):基于最终答案是否与真实答案匹配的二元/可验证奖励。
    • 上下文奖励 (R_ctx):通过检查模型选择的段落与金标准证据段落集合之间的重叠(例如使用 ROUGE 或精确匹配)计算的密集奖励。
    • 总奖励为加权和:R_total = λ * R_ans + (1‑λ) * R_ctx
  3. 训练循环 – 使用标准的策略梯度强化学习(如 PPO),但由于 R_ctx,梯度会同时流经定位和答案生成组件。
  4. 验证 – “可验证”部分意味着两种奖励都可以在训练时自动计算,无需人工标注,利用基准数据集中的已有证据标注。

该方法刻意保持简洁:加入第二个密集信号,告知模型在证据选择阶段“做对了什么”,从而避免稀疏奖励问题。

结果与发现

模型(规模)基线 RLVR (RULER‑QA)LongRLVR (RULER‑QA)基线 RLVR (LongBench v2)LongRLVR (LongBench v2)
Qwen‑14B73.1788.90 (+15.73)39.846.5 (+6.7)
LLaMA‑13B68.482.1 (+13.7)35.242.0 (+6.8)
LLaMA‑7B61.574.3 (+12.8)30.137.9 (+7.8)
  • 在所有模型规模和两套基准测试中,LongRLVR 相较于原始 RLVR 基线均实现了 显著提升
  • 消融实验(改变 λ、去除 R_ctx)表明,上下文奖励是性能提升的主要驱动因素;若去除该奖励,性能会回落至基线水平。
  • 梯度分析显示,上下文奖励能够恢复 grounding 模块的非消失梯度,使得即使在非常长的输入(数千个 token)下也能实现稳定训练。

实际意义

  • 更好的检索增强生成(RAG):在大型语料库(如法律文档、代码库、科学文献)上构建问答或摘要系统的开发者,可以将 LongRLVR 奖励方案嵌入其 RL 微调流程,从而获得更可靠的证据选择。
  • 减少幻觉:通过显式奖励正确的依据,模型更不容易捏造答案,这对客户支持机器人或医疗助理等下游应用的安全性提升至关重要。
  • 可扩展到现有 LLM:该方法适用于现成的 Qwen/LLaMA 检查点;无需进行架构修改,是已在使用 RLVR 的团队的低摩擦升级方案。
  • 工具使用的潜力:密集上下文奖励可以改造为奖励对外部工具(搜索 API、数据库)的成功调用,为构建更稳健的工具增强型代理打开了路径。

限制与未来工作

  • 对金证据的依赖:上下文奖励假设能够获取带注释的证据段落;在缺乏此类标签的领域,需要对奖励进行近似(例如通过弱监督)。
  • 奖励权重敏感性:在答案奖励和上下文奖励之间选择 λ 的平衡需要验证;不恰当的 λ 可能削弱收益。
  • 验证的可扩展性:对非常大的语料库计算 R_ctx 可能成本高昂;未来工作可以探索近似或学习型的验证模型。
  • 超越问答的应用:本文聚焦于 QA 基准;将同一原理应用于长文本生成、代码合成或多轮对话等任务仍是一个开放的方向。

LongRLVR 表明,奖励信息定位过程与奖励结果同等重要。对于需要在海量上下文中筛选信息的 LLM 驱动系统的开发者而言,这一洞见提供了一种实用方案,可在不彻底改造现有模型的前提下提升准确性和可信度。

作者

  • Guanzheng Chen
  • Michael Qizhe Shieh
  • Lidong Bing

论文信息

  • arXiv ID: 2603.02146v1
  • 分类: cs.CL
  • 出版日期: 2026年3月2日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »