[Paper] LongRLVR:长上下文强化学习需要可验证的上下文奖励
发布: (2026年3月3日 GMT+8 02:07)
7 分钟阅读
原文: arXiv
Source: arXiv - 2603.02146v1
概览
论文 LongRLVR 解决了在让大型语言模型(LLM)对长文档进行推理时的一个根本性障碍。虽然之前的可验证奖励强化学习(RLVR)方法提升了事实推理能力,但当答案需要在冗长的上下文中定位并使用分散的信息时,它们会遇到困难。作者指出,仅对最终答案进行奖励会导致学习信号过于稀疏,并提出了一种密集的“上下文奖励”,明确表扬模型挑选正确证据的行为。
关键贡献
- 理论分析 证明仅使用答案奖励会导致在长上下文任务中,针对 grounding(证据选择)步骤的梯度消失。
- LongRLVR 框架 将稀疏的答案奖励与密集的、可验证的上下文奖励相结合,为证据检索提供明确的学习信号。
- 实证验证 在多个长上下文基准(RULER‑QA、LongBench v2)上使用 Qwen 和 LLaMA 系列模型进行实验,展示出一致且显著的性能提升(例如 14B 模型在 RULER‑QA 上从 73.17 提升至 88.90)。
- 开源实现 已在 GitHub 上发布,便于复现并轻松集成到现有的 RLVR 流程中。
方法论
- 问题设定 – 任务被框定为两阶段过程:(a) 定位:从长上下文中选择相关段落;(b) 答案生成:生成最终答案。
- 奖励设计
- 答案奖励 (
R_ans):基于最终答案是否与真实答案匹配的二元/可验证奖励。 - 上下文奖励 (
R_ctx):通过检查模型选择的段落与金标准证据段落集合之间的重叠(例如使用 ROUGE 或精确匹配)计算的密集奖励。 - 总奖励为加权和:
R_total = λ * R_ans + (1‑λ) * R_ctx。
- 答案奖励 (
- 训练循环 – 使用标准的策略梯度强化学习(如 PPO),但由于
R_ctx,梯度会同时流经定位和答案生成组件。 - 验证 – “可验证”部分意味着两种奖励都可以在训练时自动计算,无需人工标注,利用基准数据集中的已有证据标注。
该方法刻意保持简洁:加入第二个密集信号,告知模型在证据选择阶段“做对了什么”,从而避免稀疏奖励问题。
结果与发现
| 模型(规模) | 基线 RLVR (RULER‑QA) | LongRLVR (RULER‑QA) | 基线 RLVR (LongBench v2) | LongRLVR (LongBench v2) |
|---|---|---|---|---|
| Qwen‑14B | 73.17 | 88.90 (+15.73) | 39.8 | 46.5 (+6.7) |
| LLaMA‑13B | 68.4 | 82.1 (+13.7) | 35.2 | 42.0 (+6.8) |
| LLaMA‑7B | 61.5 | 74.3 (+12.8) | 30.1 | 37.9 (+7.8) |
- 在所有模型规模和两套基准测试中,LongRLVR 相较于原始 RLVR 基线均实现了 显著提升。
- 消融实验(改变 λ、去除
R_ctx)表明,上下文奖励是性能提升的主要驱动因素;若去除该奖励,性能会回落至基线水平。 - 梯度分析显示,上下文奖励能够恢复 grounding 模块的非消失梯度,使得即使在非常长的输入(数千个 token)下也能实现稳定训练。
实际意义
- 更好的检索增强生成(RAG):在大型语料库(如法律文档、代码库、科学文献)上构建问答或摘要系统的开发者,可以将 LongRLVR 奖励方案嵌入其 RL 微调流程,从而获得更可靠的证据选择。
- 减少幻觉:通过显式奖励正确的依据,模型更不容易捏造答案,这对客户支持机器人或医疗助理等下游应用的安全性提升至关重要。
- 可扩展到现有 LLM:该方法适用于现成的 Qwen/LLaMA 检查点;无需进行架构修改,是已在使用 RLVR 的团队的低摩擦升级方案。
- 工具使用的潜力:密集上下文奖励可以改造为奖励对外部工具(搜索 API、数据库)的成功调用,为构建更稳健的工具增强型代理打开了路径。
限制与未来工作
- 对金证据的依赖:上下文奖励假设能够获取带注释的证据段落;在缺乏此类标签的领域,需要对奖励进行近似(例如通过弱监督)。
- 奖励权重敏感性:在答案奖励和上下文奖励之间选择 λ 的平衡需要验证;不恰当的 λ 可能削弱收益。
- 验证的可扩展性:对非常大的语料库计算
R_ctx可能成本高昂;未来工作可以探索近似或学习型的验证模型。 - 超越问答的应用:本文聚焦于 QA 基准;将同一原理应用于长文本生成、代码合成或多轮对话等任务仍是一个开放的方向。
LongRLVR 表明,奖励信息定位过程与奖励结果同等重要。对于需要在海量上下文中筛选信息的 LLM 驱动系统的开发者而言,这一洞见提供了一种实用方案,可在不彻底改造现有模型的前提下提升准确性和可信度。
作者
- Guanzheng Chen
- Michael Qizhe Shieh
- Lidong Bing
论文信息
- arXiv ID: 2603.02146v1
- 分类: cs.CL
- 出版日期: 2026年3月2日
- PDF: 下载 PDF