[Paper] 测试时强化学习的工具验证
发布: (2026年3月3日 GMT+8 02:57)
8 分钟阅读
原文: arXiv
Source: arXiv - 2603.02203v1
概述
测试时强化学习(TTRL)使大型推理模型在使用过程中持续学习,通过对未标记的测试输入进行多数投票共识来生成自己的奖励信号。作者展示了这种方法可能适得其反:一个流行但错误的答案可能主导投票,强化错误的“共识”,导致模型陷入偏见模式。他们的解决方案 T³RL(用于测试时强化学习的工具验证),在投票过程中注入外部工具证据(例如代码执行结果),对可验证的答案赋予更高权重。其结果是一个更可信的自我训练循环,能够在各种数学题集上进行扩展。
关键贡献
- 验证感知的奖励估计: 引入一个验证器,对模型的生成结果进行外部工具(代码运行器、计算器、符号求解器)检查,并在多数投票时对已验证的答案赋予更高权重。
- 可推广的框架: 能够与多种主干 LLM 系列(GPT 风格、编码器‑解码器以及指令微调模型)协同工作,无需针对特定架构进行调整。
- 在挑战性基准上的实证提升: 在 MATH‑500、AMC 和 2024 年 AIME 上相较于原始 TTRL 展现出持续的改进,尤其在最难题目层级上提升幅度最大。
- 概念性重新构建: 将 T³RL 定位为“已验证的在线数据合成”,凸显基于工具的证据在稳定自我演化模型中的作用。
- 开源验证工具包: 发布一个轻量级库,可将任意工具(Python 沙箱、符号代数、外部 API)接入任何 TTRL 流程。
方法论
- Baseline TTRL loop – 模型为每个测试问题生成多个答案候选(rollout)。对这些 rollout 进行多数投票,产生伪标签,然后将其用作奖励信号,实时微调模型。
- Tool‑based verification – 对每个 rollout,verifier 会运行外部工具来确认或驳斥答案:
- Code execution 用于编程式数学(例如,计算公式)。
- Symbolic solvers(SymPy、Mathematica)用于代数证明。
- Numerical calculators 用于算术密集型问题。
- Verification‑aware voting – 已验证的 rollout 获得更高的投票权重(例如 ×2),未验证的保持基线权重。加权投票得到更可靠的伪标签。
- Reward shaping – 加权共识被转化为标量奖励(例如 +1 表示正确,0 表示错误),用于驱动强化学习更新。
- Iterative online fine‑tuning – 模型在每批测试输入后进行更新,持续改进,同时仍在同一数据流上进行评估。
整个流水线轻量化:verifier 与模型生成并行运行,额外的计算成本相较于完整模型推理而言是适度的。
结果与发现
| Benchmark | Baseline TTRL (Acc.) | T³RL (Acc.) | Relative Gain |
|---|---|---|---|
| MATH‑500 (all) | 42.1 % | 48.9 % | +6.8 pp |
| MATH‑500 (hard) | 28.4 % | 37.2 % | +8.8 pp |
| AMC 12 | 55.3 % | 61.7 % | +6.4 pp |
| AIME 2024 (top 10) | 31.0 % | 39.5 % | +8.5 pp |
- 在最难的问题子集上增益更大,证明验证帮助模型避免“容易但错误”的共识陷阱。
- 在不同模型规模(7B、13B、70B)上均呈现相同的改进模式,表明该方法并不依赖于特定规模。
- 消融实验显示,去除验证加权后性能几乎回落到基线水平,凸显其核心作用。
实际意义
- 更可靠的自我改进 AI 服务: 允许大型语言模型实时适应用户查询的部署(例如辅导机器人、代码助手)现在可以加入工具检查,以防止向系统性错误漂移。
- 降低对人工参与标注的需求: 通过利用现有工具作为“免费”验证器,开发者可以在无需昂贵标注流水线的情况下生成高质量的伪标签。
- 即插即用的验证模块: 已发布的库使得将领域特定工具(物理模拟器、数据库查询验证器等)轻松附加到任何 TTRL 风格的系统上成为可能,将该方法从数学扩展到更广泛的推理任务。
- 更安全的模型更新: 由于奖励信号基于可验证的证据,强化有害或偏见输出的风险降低,这对于持续学习的部署是一个关键关注点。
限制与未来工作
- 工具覆盖范围: 该方法依赖于可靠的外部验证器的存在。对于缺乏成熟工具的领域(例如细致的法律推理),验证可能不可行。
- 验证延迟: 运行外部工具会增加开销;虽然在数学任务中影响有限,但更重量级的模拟器可能会成为实时适应的瓶颈。
- 对工具的潜在过度依赖: 如果工具本身存在缺陷或偏见,验证器可能会将这些错误传播到奖励信号中。
- 未来方向: 作者建议探索层次化验证(使用带置信度加权的多工具)、自适应验证预算(决定何时进行验证),以及将该框架扩展到多模态推理(例如使用图像分析工具的视觉‑语言任务)。
TL;DR:T³RL 在测试时强化学习中注入基于工具的证据,将嘈杂的多数投票转化为可信的信号。其结果是在多个基准上显著提升数学问题求解能力,并为在生产环境中构建更安全、自我进化的 AI 系统指明了清晰的路径。
作者
- Ruotong Liao
- Nikolai Röhrich
- Xiaohan Wang
- Yuhui Zhang
- Yasaman Samadzadeh
- Volker Tresp
- Serena Yeung‑Levy
Paper Information
- arXiv ID: 2603.02203v1
- Categories: cs.AI, cs.CL
- Published: 2026年3月2日
- PDF: 下载 PDF