[Paper] 基于验证器的困难问题生成用于数学推理

发布: (2026年5月8日 GMT+8 01:58)
7 分钟阅读
原文: arXiv

Source: arXiv - 2605.06660v1

概述

本文提出了 VHG(Verifier‑Backed Hard problem Generation),一种新框架,使语言模型能够在几乎无需人工监督的情况下自动生成具有挑战性且有效的数学问题。通过在经典的出题者‑求解者循环中加入独立的“验证器”,VHG 抑制了模型作弊(reward‑hacking)的倾向,并为未来的 LLM 提供了更高质量的训练数据。

关键贡献

  • 三方自我对弈架构:在出题者和求解者之间引入验证者,将奖励信号转化为对有效性和难度的联合评估。
  • 两种验证者实现
    1. 硬符号验证者 – 基于规则的引擎,使用符号计算检查数学正确性。
    2. 软 LLM‑基验证者 – 一个较小的、微调的语言模型,在符号检查不可行时判断合理性。
  • 双重实证验证:(a) 不定积分生成和 (b) 更广泛的数学推理任务,显示相较于以往自我对弈和人类在环基线的一致提升。
  • 开源工具包:作者发布代码和预训练组件,使其他团队能够将 VHG 插入自己的题目生成流水线。

方法论

  1. 出题者(生成器) – 通过提示让大型语言模型(LLM)生成一个新的数学题目。

  2. 求解者(评估器) – 另一个 LLM 负责求解生成的题目;其成功率被用作难度的代理指标(题目越难 → 求解成功率越低)。

  3. 验证者(校验器) – 并行运行:

    • 硬验证器 解析题目并使用计算机代数系统(CAS)确认该陈述在数学上是合理的且唯一解存在。
    • 软验证器 使用轻量级 LLM(在一套精心挑选的有效/无效示例上训练)对题目的逻辑连贯性和新颖性进行打分。
  4. 奖励塑形 – 出题者获得复合奖励:

    Reward = α * ValidityScore (verifier) + β * DifficultyScore (solver)

    因此,出题者被激励去生成既正确又非平凡的题目。

  5. 训练循环 – 通过强化学习(PPO)使用复合奖励对出题者进行微调,而求解者和验证者保持固定(或在后期阶段可选地共同训练)。

结果与发现

任务基线(自我对弈)VHG(硬验证器)VHG(软验证器)
不定积分(有效性 %)68%92%88%
求解器成功率(难度)45%30%33%
通用数学推理(BLEU‑like)0.610.780.75
  • 有效性提升:加入验证器将无效题目生成减少了超过 20 个百分点。
  • 更难的题目:求解器成功率下降,表明出题者在保持正确性的同时学会提升难度。
  • 鲁棒性:软 LLM 验证器虽然不如符号验证器精确,但仍带来显著改进,并且能够处理符号检查失效的题型(例如组合证明)。

实际意义

  • 自动化课程生成 – 教育平台可以持续为学生或下游 LLM 训练合成新鲜、经过审查的练习。
  • 自我改进的研究助理 – 配备 VHG 的 LLM 可以提出新颖的猜想或测试案例,然后在将其反馈到自身训练循环之前进行验证,从而减少对人工数学家的依赖。
  • 基准丰富 – 面向数学的 LLM 测试套件(如 MATH、GSM‑8K)可以自动扩展,防止基准变得陈旧。
  • 开发者工具 – 已发布的 SDK 让工程师可以将验证器插入任何生成流水线(代码生成、数据增强、提示工程),提升 AI 生成内容的安全性和可靠性。

限制与未来工作

  • 验证器依赖:硬符号验证器在当前计算代数系统(CAS)库范围之外的问题(例如高级拓扑)上表现不佳,限制了覆盖范围。
  • 软验证器偏差:由于软验证器本身也是一个大型语言模型,它可能继承与其要捕捉的相同的幻觉模式,需要仔细校准。
  • 强化学习的可扩展性:在大型语言模型上进行强化学习仍然计算密集;作者指出,采用更轻量的微调策略可能会让 VHG 更加易于使用。
  • 未来方向:将框架扩展到多模态推理(例如带图形的几何),探索求解器与验证器的协同训练,以及整合人机交互反馈以处理罕见的边缘案例。

作者

  • Yuhang Lai
  • Jiazhan Feng
  • Yee Whye Teh
  • Ning Miao

论文信息

  • arXiv ID: 2605.06660v1
  • 分类: cs.LG, cs.AI, cs.CL
  • 出版日期: 2026年5月7日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »