[Paper] MathDuels:评估 LLM 作为出题者和求解者
发布: (2026年4月24日 GMT+8 01:57)
7 分钟阅读
原文: arXiv
Source: arXiv - 2604.21916v1
概览
论文 MathDuels 提出了一个全新的方法来评估大语言模型(LLM)在数学方面的能力:模型不再仅仅作为求解者在静态题库上进行测试,而是同时充当 题目创作者。通过让模型相互对抗进行自我对决(“duel”),作者能够持续提升测试集的难度,并揭示传统基准测试所忽略的模型优势。
关键贡献
- 双角色基准 – 引入一种自我对弈框架,使每个模型既生成数学问题,又尝试解决其他模型生成的问题。
- 三阶段问题生成流水线 – 结合元提示、问题生成和难度放大,以产生结构良好、具有挑战性的问题。
- 独立验证步骤 – 自动验证器过滤掉模糊或描述不清的问题,确保只有有效条目进入评估。
- 基于 Rasch 模型的评分 – 使用心理测量学 Rasch 模型从同一交互数据中联合估计解题者能力、问题难度和作者质量。
- 对 19 个前沿模型的实证研究 – 表明问题创作能力和解题能力仅部分相关,揭示隐藏的能力差距。
- 实时、动态排行榜 – 发布公开排行榜,随着新模型加入自动更新,防止基准达到静态上限。
方法论
- Meta‑prompting – 模型接收一个高层次指令(例如,“为同伴模型创建一个具有挑战性的代数题”)。这会让模型以出题者的思维方式进行思考。
- Problem Generation – 模型撰写完整的问题陈述,包含所有必要的定义或约束。
- Difficulty Amplification – 第二个提示促使模型提升问题的复杂度(例如,“添加一个额外变量或收紧界限”)。
- Verification – 独立的验证器(另一个大语言模型加上基于规则的检查)将生成的问题交给求解器,以确认其表述完整且唯一答案。无效项将被剔除。
- Self‑play solving – 每个模型尝试求解其他所有模型所编写的每个问题,形成求解者与出题者交互的矩阵。
- Rasch analysis – 交互矩阵输入 Rasch 模型,同时估计:
- Solver ability – 模型解决特定难度问题的可能性。
- Problem difficulty – 每个生成问题的内在挑战度。
- Author quality – 根据模型所创建问题的平均难度得出。
整个流程全自动化,能够在无需人工策划的情况下直接加入新模型。
结果与发现
- 技能的部分解耦 – 一些擅长求解的模型(例如 GPT‑4‑Turbo)会生成相对容易的问题,而另一些模型(例如 Claude‑2)即使求解得分一般,也会出更难的题目。
- 动态难度曲线 – 随着更新、更强的模型加入,它们会出题击败之前排名最高的求解器,防止基准测试出现饱和。
- 能力差距被揭示 – 传统的静态基准把多个模型评到接近上限,但 MathDuels 显示在对抗性生成的问题上仍有模型被超越。
- 排行榜动态 – 公共排行榜呈现“追赶”模式:新模型的出题质量突升,随后社区通过微调提示策略,使现有求解器的分数提升。
实际意义
- 更真实的压力测试 – 开发者可以使用 MathDuels 来评估 LLM 在面对用户生成的、可能具有对抗性的数学查询时的表现,这在辅导应用或代码助手中很常见。
- 提示工程洞察 – 难度放大阶段突出显示了推动模型进行更复杂推理的提示模式,提供了构建更严苛评估套件的思路。
- 下游产品的模型选择 – 企业可以优先选择不仅能解题,还能生成高质量题目的模型,这对自动内容创建(例如生成练习工作表)非常有用。
- 持续基准测试流水线 – 由于基准会随每个新模型的发布而演进,它可以作为集成到 AI 产品 CI 流水线中的“活”测试工具,确保及早捕获回归。
限制与未来工作
- Verifier 依赖 – 当前的验证步骤依赖于另一个 LLM,可能偶尔会误判边缘问题;采用更正式的定理证明后端可能提升鲁棒性。
- 数学领域范围 – 本研究主要聚焦代数和微积分;扩展到组合学、数论或应用数学(例如物理风格的问题)将扩大适用性。
- Rasch 模型假设 – Rasch 模型假设能力是单维的,这可能过于简化数学推理的多面性(例如符号操作与逻辑推理)。
- 人机交互验证 – 未来工作可以加入专家人工审查,以校准难度分数并捕捉自动验证器可能遗漏的细微歧义。
MathDuels 为衡量 LLM 能力提供了一种更动态、对抗性和信息丰富的方式——这种方法有望成为 AI 开发者和产品团队工具箱中的常备手段。
作者
- Zhiqiu Xu
- Shibo Jin
- Shreya Arya
- Mayur Naik
论文信息
- arXiv ID: 2604.21916v1
- Categories: cs.CL, cs.SE
- Published: 2026年4月23日
- PDF: 下载 PDF