[Paper] 测试时强化学习的工具验证

发布: 1天前 (2026年3月3日 GMT+8 02:57)

8 分钟阅读

原文: arXiv

Source: arXiv - 2603.02203v1

概述

测试时强化学习（TTRL）使大型推理模型在使用过程中持续学习，通过对未标记的测试输入进行多数投票共识来生成自己的奖励信号。作者展示了这种方法可能适得其反：一个流行但错误的答案可能主导投票，强化错误的“共识”，导致模型陷入偏见模式。他们的解决方案 T³RL（用于测试时强化学习的工具验证），在投票过程中注入外部工具证据（例如代码执行结果），对可验证的答案赋予更高权重。其结果是一个更可信的自我训练循环，能够在各种数学题集上进行扩展。

关键贡献

验证感知的奖励估计： 引入一个验证器，对模型的生成结果进行外部工具（代码运行器、计算器、符号求解器）检查，并在多数投票时对已验证的答案赋予更高权重。
可推广的框架： 能够与多种主干 LLM 系列（GPT 风格、编码器‑解码器以及指令微调模型）协同工作，无需针对特定架构进行调整。
在挑战性基准上的实证提升： 在 MATH‑500、AMC 和 2024 年 AIME 上相较于原始 TTRL 展现出持续的改进，尤其在最难题目层级上提升幅度最大。
概念性重新构建： 将 T³RL 定位为“已验证的在线数据合成”，凸显基于工具的证据在稳定自我演化模型中的作用。
开源验证工具包： 发布一个轻量级库，可将任意工具（Python 沙箱、符号代数、外部 API）接入任何 TTRL 流程。

方法论

Baseline TTRL loop – 模型为每个测试问题生成多个答案候选（rollout）。对这些 rollout 进行多数投票，产生伪标签，然后将其用作奖励信号，实时微调模型。
Tool‑based verification – 对每个 rollout，verifier 会运行外部工具来确认或驳斥答案：
- Code execution 用于编程式数学（例如，计算公式）。
- Symbolic solvers（SymPy、Mathematica）用于代数证明。
- Numerical calculators 用于算术密集型问题。
Verification‑aware voting – 已验证的 rollout 获得更高的投票权重（例如 ×2），未验证的保持基线权重。加权投票得到更可靠的伪标签。
Reward shaping – 加权共识被转化为标量奖励（例如 +1 表示正确，0 表示错误），用于驱动强化学习更新。
Iterative online fine‑tuning – 模型在每批测试输入后进行更新，持续改进，同时仍在同一数据流上进行评估。

整个流水线轻量化：verifier 与模型生成并行运行，额外的计算成本相较于完整模型推理而言是适度的。

结果与发现

Benchmark	Baseline TTRL (Acc.)	T³RL (Acc.)	Relative Gain
MATH‑500 (all)	42.1 %	48.9 %	+6.8 pp
MATH‑500 (hard)	28.4 %	37.2 %	+8.8 pp
AMC 12	55.3 %	61.7 %	+6.4 pp
AIME 2024 (top 10)	31.0 %	39.5 %	+8.5 pp

在最难的问题子集上增益更大，证明验证帮助模型避免“容易但错误”的共识陷阱。
在不同模型规模（7B、13B、70B）上均呈现相同的改进模式，表明该方法并不依赖于特定规模。
消融实验显示，去除验证加权后性能几乎回落到基线水平，凸显其核心作用。

实际意义

更可靠的自我改进 AI 服务： 允许大型语言模型实时适应用户查询的部署（例如辅导机器人、代码助手）现在可以加入工具检查，以防止向系统性错误漂移。
降低对人工参与标注的需求： 通过利用现有工具作为“免费”验证器，开发者可以在无需昂贵标注流水线的情况下生成高质量的伪标签。
即插即用的验证模块： 已发布的库使得将领域特定工具（物理模拟器、数据库查询验证器等）轻松附加到任何 TTRL 风格的系统上成为可能，将该方法从数学扩展到更广泛的推理任务。
更安全的模型更新： 由于奖励信号基于可验证的证据，强化有害或偏见输出的风险降低，这对于持续学习的部署是一个关键关注点。

限制与未来工作

工具覆盖范围： 该方法依赖于可靠的外部验证器的存在。对于缺乏成熟工具的领域（例如细致的法律推理），验证可能不可行。
验证延迟： 运行外部工具会增加开销；虽然在数学任务中影响有限，但更重量级的模拟器可能会成为实时适应的瓶颈。
对工具的潜在过度依赖： 如果工具本身存在缺陷或偏见，验证器可能会将这些错误传播到奖励信号中。
未来方向： 作者建议探索层次化验证（使用带置信度加权的多工具）、自适应验证预算（决定何时进行验证），以及将该框架扩展到多模态推理（例如使用图像分析工具的视觉‑语言任务）。

TL;DR：T³RL 在测试时强化学习中注入基于工具的证据，将嘈杂的多数投票转化为可信的信号。其结果是在多个基准上显著提升数学问题求解能力，并为在生产环境中构建更安全、自我进化的 AI 系统指明了清晰的路径。

作者

Ruotong Liao
Nikolai Röhrich
Xiaohan Wang
Yuhui Zhang
Yasaman Samadzadeh
Volker Tresp
Serena Yeung‑Levy

Paper Information

arXiv ID: 2603.02203v1
Categories: cs.AI, cs.CL
Published: 2026年3月2日
PDF: 下载 PDF

[Paper] 测试时强化学习的工具验证

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

Paper Information

相关文章

[Paper] 扩展 Retrieval Augmented Generation 与 RAG Fusion：行业部署经验

[Paper] 零样本和少样本命名实体识别：犯罪领域的案例研究与数据集 (CrimeNER)

[Paper] LLMs 作为战略行为者：行为对齐、风险校准与论证框架在地缘政治模拟中的研究

[Paper] 用于长期推理的递归模型