[Paper] LongRLVR：长上下文强化学习需要可验证的上下文奖励

发布: 1天前 (2026年3月3日 GMT+8 02:07)

7 分钟阅读

原文: arXiv

Source: arXiv - 2603.02146v1

概览

论文 LongRLVR 解决了在让大型语言模型（LLM）对长文档进行推理时的一个根本性障碍。虽然之前的可验证奖励强化学习（RLVR）方法提升了事实推理能力，但当答案需要在冗长的上下文中定位并使用分散的信息时，它们会遇到困难。作者指出，仅对最终答案进行奖励会导致学习信号过于稀疏，并提出了一种密集的“上下文奖励”，明确表扬模型挑选正确证据的行为。

关键贡献

理论分析 证明仅使用答案奖励会导致在长上下文任务中，针对 grounding（证据选择）步骤的梯度消失。
LongRLVR 框架 将稀疏的答案奖励与密集的、可验证的上下文奖励相结合，为证据检索提供明确的学习信号。
实证验证 在多个长上下文基准（RULER‑QA、LongBench v2）上使用 Qwen 和 LLaMA 系列模型进行实验，展示出一致且显著的性能提升（例如 14B 模型在 RULER‑QA 上从 73.17 提升至 88.90）。
开源实现 已在 GitHub 上发布，便于复现并轻松集成到现有的 RLVR 流程中。

方法论

问题设定 – 任务被框定为两阶段过程：(a) 定位：从长上下文中选择相关段落；(b) 答案生成：生成最终答案。
奖励设计
- 答案奖励 (R_ans)：基于最终答案是否与真实答案匹配的二元/可验证奖励。
- 上下文奖励 (R_ctx)：通过检查模型选择的段落与金标准证据段落集合之间的重叠（例如使用 ROUGE 或精确匹配）计算的密集奖励。
- 总奖励为加权和：R_total = λ * R_ans + (1‑λ) * R_ctx。
训练循环 – 使用标准的策略梯度强化学习（如 PPO），但由于 R_ctx，梯度会同时流经定位和答案生成组件。
验证 – “可验证”部分意味着两种奖励都可以在训练时自动计算，无需人工标注，利用基准数据集中的已有证据标注。

该方法刻意保持简洁：加入第二个密集信号，告知模型在证据选择阶段“做对了什么”，从而避免稀疏奖励问题。

结果与发现

模型（规模）	基线 RLVR (RULER‑QA)	LongRLVR (RULER‑QA)	基线 RLVR (LongBench v2)	LongRLVR (LongBench v2)
Qwen‑14B	73.17	88.90 (+15.73)	39.8	46.5 (+6.7)
LLaMA‑13B	68.4	82.1 (+13.7)	35.2	42.0 (+6.8)
LLaMA‑7B	61.5	74.3 (+12.8)	30.1	37.9 (+7.8)

在所有模型规模和两套基准测试中，LongRLVR 相较于原始 RLVR 基线均实现了 显著提升。
消融实验（改变 λ、去除 R_ctx）表明，上下文奖励是性能提升的主要驱动因素；若去除该奖励，性能会回落至基线水平。
梯度分析显示，上下文奖励能够恢复 grounding 模块的非消失梯度，使得即使在非常长的输入（数千个 token）下也能实现稳定训练。

实际意义

更好的检索增强生成（RAG）：在大型语料库（如法律文档、代码库、科学文献）上构建问答或摘要系统的开发者，可以将 LongRLVR 奖励方案嵌入其 RL 微调流程，从而获得更可靠的证据选择。
减少幻觉：通过显式奖励正确的依据，模型更不容易捏造答案，这对客户支持机器人或医疗助理等下游应用的安全性提升至关重要。
可扩展到现有 LLM：该方法适用于现成的 Qwen/LLaMA 检查点；无需进行架构修改，是已在使用 RLVR 的团队的低摩擦升级方案。
工具使用的潜力：密集上下文奖励可以改造为奖励对外部工具（搜索 API、数据库）的成功调用，为构建更稳健的工具增强型代理打开了路径。

限制与未来工作

对金证据的依赖：上下文奖励假设能够获取带注释的证据段落；在缺乏此类标签的领域，需要对奖励进行近似（例如通过弱监督）。
奖励权重敏感性：在答案奖励和上下文奖励之间选择 λ 的平衡需要验证；不恰当的 λ 可能削弱收益。
验证的可扩展性：对非常大的语料库计算 R_ctx 可能成本高昂；未来工作可以探索近似或学习型的验证模型。
超越问答的应用：本文聚焦于 QA 基准；将同一原理应用于长文本生成、代码合成或多轮对话等任务仍是一个开放的方向。

LongRLVR 表明，奖励信息定位过程与奖励结果同等重要。对于需要在海量上下文中筛选信息的 LLM 驱动系统的开发者而言，这一洞见提供了一种实用方案，可在不彻底改造现有模型的前提下提升准确性和可信度。

作者

Guanzheng Chen
Michael Qizhe Shieh
Lidong Bing

论文信息

arXiv ID: 2603.02146v1
分类: cs.CL
出版日期: 2026年3月2日
PDF: 下载 PDF

[Paper] LongRLVR：长上下文强化学习需要可验证的上下文奖励

概览

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] 推理核心：可扩展的过程式数据生成套件，用于符号预训练和后训练

[Paper] 测试时强化学习的工具验证

[Paper] 组织、编排与基准测试 Agent Skills 在生态系统规模下

[Paper] 扩展 Retrieval Augmented Generation 与 RAG Fusion：行业部署经验