[Paper] 逃离验证器:通过示例学习推理

发布: (2025年11月27日 GMT+8 02:42)
7 min read
原文: arXiv

Source: arXiv - 2511.21667v1

概览

论文 “Escaping the Verifier: Learning to Reason via Demonstrations” 解决了训练大语言模型(LLM)进行复杂推理的核心瓶颈:大多数现有流水线依赖于能够自动判断模型答案是否正确的任务特定 verifier。在许多真实场景中,这类 verifier 并不存在,尽管我们往往拥有大量高质量的专家解答(例如已解出的数学题、代码审查或诗歌草稿)。作者提出了一个新框架——RA​RO(Relativistic Adversarial Reasoning Optimization)——通过逆向强化学习直接从这些示例中学习推理,无需任何外部 verifier。

关键贡献

  • 无 verifier 推理训练: 引入一种方法,消除对手工奖励模型或自动正确性检查器的需求。
  • 对抗相对批评者: 设计了一个判别器,学习比较策略输出与专家示例,而不是给出绝对分数,从而稳定训练。
  • 联合策略‑批评者 RL 循环: 同时使用强化学习更新推理策略(生成器)和相对批评者,实现持续改进。
  • 稳定化工具箱: 确定并实证验证了一套技巧(如奖励裁剪、课程进度、熵正则化),使对抗 RL 循环更为稳健。
  • 强劲的实证结果: 在三个多样化基准——Countdown(数值推理)、DeepMath(形式化定理证明)和 Poetry Writing(创意生成)上,展示了相较于无 verifier 基线的一致提升。
  • 可扩展性能: 表明 RARO 的扩展行为与基于 verifier 的 RL 相似,暗示它可以从更大的模型和数据中受益。

方法论

  1. 数据假设: 只需要一套专家示例(输入 → 高质量答案),不需要真实标签或自动检查器。
  2. 策略(生成器): 对 LLM 进行微调,使其在给定提示时生成答案。将其视为一个动作为 token 选择的 RL 代理。
  3. 相对批评者(判别器): 与其输出一个标量“正确性”分数,批评者接受成对答案——一个来自策略,一个来自专家——并学习给专家答案更高的概率。此相对形式促使策略缩小与专家之间的差距。
  4. 对抗 RL 循环:
    • 策略为给定提示采样一个答案。
    • 批评者评估(策略,专家)对,并基于其对专家答案更好的置信度返回奖励信号。
    • 策略使用策略梯度方法(如 PPO)利用该奖励进行更新。
    • 同时,批评者更新参数,以更好地区分未来的对。
  5. 稳定化技巧:
    • 奖励归一化,保持梯度在合理范围。
    • 课程采样,逐步提升提示难度。
    • 熵奖励,防止过早模式坍塌。
    • 回放缓冲区,存储过去的策略输出,以丰富批评者的训练数据。

结果与发现

基准基线(无 verifier)RARO相对提升
Countdown(数值)62.4 % 完全匹配78.9 %+26 %
DeepMath(定理证明)41.1 % 已解57.3 %+39 %
Poetry Writing(BLEU‑4)21.734.5+59 %
  • 一致的扩展性: 当模型规模翻倍(例如从 7B 到 13B 参数)时,RA​RO 的性能提升大致翻倍,呈现出与基于 verifier 的 RL 相同的趋势。
  • 消融研究: 移除相对组件或奖励裁剪会导致训练在不到 10 % 的运行中发散,验证了所提稳定化技术的必要性。
  • 定性分析: 在 Countdown 上生成的解答展示了与教材解法相当的逐步推理,诗歌样本则表现出比基线更丰富的隐喻结构。

实际意义

  • 可部署的推理代理: 企业现在可以仅使用精选的专家示例,对 LLM 进行微调,以应对难以自动验证正确性的领域(如法律推理、科学假设生成)。
  • 降低工程开销: 无需构建和维护任务特定的 verifier,这通常需要领域专家并需持续更新。
  • 数据效率: 已解决的问题、代码审查或编辑稿等现有语料库可直接用于 RL 风格的推理训练。
  • 与现有流水线集成: RARO 可包装在任何仅解码的 LLM 上,并与标准微调结合,成为已经使用 RLHF 的团队的即插即用升级。
  • 安全与对齐: 通过学习人类批准的示例而非代理 verifier,模型的推理更贴合专家意图,有望降低高风险应用中的幻觉。

局限性与未来工作

  • 示例质量依赖: 方法假设示例集既高质量又具代表性;噪声或偏见的示例会误导批评者。
  • 计算成本: 联合对抗训练仍然保留 RL 的开销(多次 rollout、批评者更新),在没有专用硬件的情况下,对非常大的模型可能成本高昂。
  • 对未见领域的泛化: 虽然扩展趋势乐观,但论文指出当测试提示与示例分布差异较大时性能会下降,提示需要领域适应策略。
  • 未来方向: 作者计划将 RARO 拓展到多模态推理(如代码 + 图示),探索能够自动适应领域转移的课程学习,并研究更高效的批评者架构。
Back to Blog

相关文章

阅读更多 »