[Paper] ReSyn:用于推理模型的自主扩展合成环境
发布: (2026年2月24日 GMT+8 02:34)
7 分钟阅读
原文: arXiv
Source: arXiv - 2602.20117v1
请提供您希望翻译的具体文本内容,我将为您翻译成简体中文并保持原有的格式。
概述
本文介绍了 ReSyn,一个新管道,能够自动创建大规模合成推理环境并配对验证器。通过在这些环境上使用强化学习训练语言模型,作者展示了在一系列推理基准上显著的提升,包括在极具挑战性的 BBEH 数学套件上实现了 27 % 的相对提升。
关键贡献
- ReSyn pipeline:一个端到端系统,能够生成多样的、自我验证的推理任务(约束满足、算法谜题、空间推理等),无需手写解答。
- Verifier‑centric supervision:将训练信号从“正确答案”转移到“可验证奖励”,使数据创建成本更低、可扩展性更强。
- Empirical validation:在 ReSyn 上通过强化学习微调的 Qwen2.5‑7B‑Instruct 模型在标准推理基准上超越强基线,并表现出强大的跨域泛化能力。
- Ablation insights:展示了验证器奖励和任务族广度两者对所观察到的提升都是必不可少的。
方法论
- 环境库 – 作者手工打造了一套适度的 过程生成器,能够即时实例化数千个具体问题(例如,生成随机数独、图着色约束集或二维导航谜题)。
- 验证器构建 – 对于每个环境,使用轻量程序检查候选解是否满足约束,返回二元奖励(1 = 有效,0 = 无效)。这取代了人工编写答案键的需求。
- 强化学习训练循环 – 一个 LLM(Qwen2.5‑7B‑Instruct)提出解答;验证器对其进行评估,随后强化学习算法(PPO)更新模型,以最大化验证器奖励。
- 课程设计与多样性 – 任务在不同环境类型之间均匀抽样,确保模型在训练期间接触到多种推理模式。
整个流水线全自动运行:按需生成新实例、进行验证,并将结果反馈给 RL 优化器,从而实现大规模数据吞吐,无需人工标注。
结果与发现
| 指标 | 基线(无 RL) | ReSyn 上的 RL | 相对提升 |
|---|---|---|---|
| BBEH(硬数学) | 0.42 | 0.53 | +27 % |
| MATH | 0.58 | 0.64 | +10 % |
| ARC‑Easy | 0.71 | 0.77 | +8 % |
| Spatial‑Reasoning Suite | 0.66 | 0.73 | +11 % |
- 仅验证器监督 已经比标准监督微调提升了 5–8 % ,证实了即使没有显式答案标注,奖励驱动学习仍然有效。
- 任务多样性 很重要:去掉一半的环境族平均会导致性能下降约 4 %,表明接触多样的推理模式对泛化至关重要。
- 模型在保持语言生成质量(BLEU、困惑度)的同时提升了推理能力,说明 RLVR 并未牺牲流畅性。
实际意义
- 更低成本的数据流水线 – 公司可以为推理密集型应用(例如自动定理证明、基于约束的调度、游戏 AI)生成无限的训练数据,而无需雇佣标注员。
- 快速原型化新领域 – 只需添加一个新的过程生成器和一个验证器,即可将训练集扩展到新的问题空间(例如网络路由谜题)。
- 改进的 AI 助手 – 部署使用 ReSyn 风格 RLVR 训练的模型,可在代码助手、数学辅导机器人和决策支持工具中实现更可靠的逐步问题求解。
- 安全性与可解释性 – 验证器的反馈是确定且可审计的,为需要了解模型答案为何正确的对齐研究者提供更清晰的信号。
限制与未来工作
- 验证器设计开销 – 虽然比完整的解答标注更便宜,但每个新环境仍然需要一个正确、高效的验证器,对于高度复杂的领域可能并非易事。
- 向更大模型的可扩展性 – 实验仅局限于 7 B 参数的语言模型;尚需观察该方法在 70 B 以上模型上的扩展情况,因为在这些模型上强化学习的稳定性可能更脆弱。
- 奖励稀疏 – 某些环境产生的有效解极少,导致奖励稀疏;未来工作可以探索课程学习或形状奖励以缓解此问题。
- 泛化界限 – 论文在基准套件上展示了强大的跨域表现,但在约束噪声大或模糊的真实任务中,基于验证器的训练仍可能面临挑战。
ReSyn 为语言模型提供了一条成本有效、可扩展的推理训练的有前景路径,其过程生成与基于验证器的强化学习的结合有望成为下一代 AI 开发流水线的核心组成部分。
作者
- Andre He
- Nathaniel Weir
- Kaj Bostrom
- Allen Nie
- Darion Cassel
- Sam Bayless
- Huzefa Rangwala
论文信息
- arXiv ID: 2602.20117v1
- 分类: cs.AI, cs.LG
- 发表时间: 2026年2月23日
- PDF: 下载 PDF