[Paper] 生成式对抗推理器:通过对抗强化学习提升 LLM 推理能力

发布: (2025年12月19日 GMT+8 02:59)
6 min read
原文: arXiv

Source: arXiv - 2512.16917v1

Overview

论文介绍了 Generative Adversarial Reasoner (GAR),这是一种新颖的训练框架,将一个充当“推理器”的大型语言模型(LLM)与另一个充当“判别器”的大型语言模型配对。通过让这两个模型在对抗强化学习中竞争与合作,GAR 提供了密集的、逐步的反馈,显著提升了 LLM 生成的数学推理的逻辑一致性和准确性。

关键贡献

  • Joint adversarial training 指对推理 LLM 与判别 LLM 进行联合对抗训练,为每一步推理提供 on‑policy、细粒度奖励。
  • Compute‑efficient review schedule 将推理链拆分为等大小、逻辑完整的片段,使判别器能够对每个片段进行简洁、结构化的评估。
  • Dense reward signal 补充了常见的稀疏精确匹配奖励,提升了奖励分配的准确性和 RL 微调过程中的样本效率。
  • Empirical gains on hard math benchmarks(例如 AIME‑24)在硬数学基准上取得了实证提升,最高比强基线高出约 10 分。
  • Modular discriminator design 可复用于教师蒸馏、偏好对齐或证明式推理等其他目标。

方法论

  1. Reasoner LLM 生成对问题(例如数学题)的多步解答。
  2. 使用确定性调度将解答 分段 为长度相近的“切片”(例如 2–3 步推理),确保每个切片构成一个自包含的逻辑单元。
  3. Discriminator LLM 接收每个切片并给出简短的理由以及二元判断:validinvalid
  4. 对抗式 RL 循环
    • 对于每个被判定为 valid 且最终能够得到正确答案的切片,reasoner 获得 奖励
    • discriminator 对于正确发现错误或确认正确切片也会获得奖励。
  5. 两个模型均采用 on‑policy 更新(即使用当前策略自身的输出),从而在每一步提供密集的反馈,而不是等到最终答案后才反馈。
  6. 采用标准的 RL 技术(例如 PPO),但由于 discriminator 的判断,奖励塑形变得更加丰富。

结果与发现

模型(基线)AIME‑24 分数GAR‑增强分数Δ
DeepSeek‑R1‑Distill‑Qwen‑7B54.061.3+7.3
DeepSeek‑R1‑Distill‑Llama‑8B43.753.7+10.0
  • 在多个其他数学数据集(例如 GSM‑8K、MATH)上,GAR 始终优于强大的 RL‑微调基线。
  • 消融研究表明 切片级奖励 对性能提升贡献最大,验证了密集反馈的重要性。
  • 判别器保持 轻量级(≈0.5 B 参数)却实现了高检测准确率,表明对抗角色不需要全尺度的 LLM。

Practical Implications

  • 更好的调试工具:判别器的结构化理由可以向开发者展示为“推理审计”,精确定位模型出错的具体位置。
  • 高质量代码生成:通过将生成代码的每一行或块视为切片,GAR 可以适配以提前捕获逻辑错误,提升 LLM 辅助编程助手的可靠性。
  • 高效微调:密集奖励降低实现目标准确率所需的样本数量,为微调专有 LLM 的组织节省计算成本。
  • 可定制的奖励塑形:由于判别器是模块化的,团队可以插入领域特定的标准(例如安全约束、风格指南),而无需从头重新训练整个推理器。
  • 师生蒸馏:高性能判别器可以充当“教师”,引导更小的学生模型进行更可靠的推理,从而实现轻量化部署。

限制与未来工作

  • 对切片质量的依赖:当前的调度假设逻辑步骤可以被整齐地划分;高度相互依赖的推理可能会因评估碎片化而受影响。
  • 判别器容量:虽然轻量,但判别器仍可能误判细微错误,将噪声奖励传播给推理器。
  • 领域迁移:实验聚焦于数学推理;将 GAR 应用于自然语言任务(如常识推理)可能需要重新设计切片定义和论证格式。
  • 对超大模型的可扩展性:同时训练两个大语言模型会使内存占用翻倍;未来工作可以探索参数共享或知识蒸馏等技巧以减轻此问题。

作者建议探索自适应切片长度、多模态判别器(例如代码 + 执行轨迹),以及结合人类反馈的环路,以进一步收紧对抗循环。

作者

  • Qihao Liu
  • Luoxin Ye
  • Wufei Ma
  • Yu-Cheng Chou
  • Alan Yuille

论文信息

  • arXiv ID: 2512.16917v1
  • 分类: cs.AI, cs.CL, cs.LG
  • 发布时间: 2025年12月18日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »