[Paper] MathDuels：评估 LLM 作为出题者和求解者

发布: 22小时前 (2026年4月24日 GMT+8 01:57)

7 分钟阅读

原文: arXiv

Source: arXiv - 2604.21916v1

概览

论文 MathDuels 提出了一个全新的方法来评估大语言模型（LLM）在数学方面的能力：模型不再仅仅作为求解者在静态题库上进行测试，而是同时充当 题目创作者。通过让模型相互对抗进行自我对决（“duel”），作者能够持续提升测试集的难度，并揭示传统基准测试所忽略的模型优势。

Meta‑prompting – 模型接收一个高层次指令（例如，“为同伴模型创建一个具有挑战性的代数题”）。这会让模型以出题者的思维方式进行思考。
Problem Generation – 模型撰写完整的问题陈述，包含所有必要的定义或约束。
Difficulty Amplification – 第二个提示促使模型提升问题的复杂度（例如，“添加一个额外变量或收紧界限”）。
Verification – 独立的验证器（另一个大语言模型加上基于规则的检查）将生成的问题交给求解器，以确认其表述完整且唯一答案。无效项将被剔除。
Self‑play solving – 每个模型尝试求解其他所有模型所编写的每个问题，形成求解者与出题者交互的矩阵。
Rasch analysis – 交互矩阵输入 Rasch 模型，同时估计：
- Solver ability – 模型解决特定难度问题的可能性。
- Problem difficulty – 每个生成问题的内在挑战度。
- Author quality – 根据模型所创建问题的平均难度得出。

整个流程全自动化，能够在无需人工策划的情况下直接加入新模型。

技能的部分解耦 – 一些擅长求解的模型（例如 GPT‑4‑Turbo）会生成相对容易的问题，而另一些模型（例如 Claude‑2）即使求解得分一般，也会出更难的题目。
动态难度曲线 – 随着更新、更强的模型加入，它们会出题击败之前排名最高的求解器，防止基准测试出现饱和。
能力差距被揭示 – 传统的静态基准把多个模型评到接近上限，但 MathDuels 显示在对抗性生成的问题上仍有模型被超越。
排行榜动态 – 公共排行榜呈现“追赶”模式：新模型的出题质量突升，随后社区通过微调提示策略，使现有求解器的分数提升。

更真实的压力测试 – 开发者可以使用 MathDuels 来评估 LLM 在面对用户生成的、可能具有对抗性的数学查询时的表现，这在辅导应用或代码助手中很常见。
提示工程洞察 – 难度放大阶段突出显示了推动模型进行更复杂推理的提示模式，提供了构建更严苛评估套件的思路。
下游产品的模型选择 – 企业可以优先选择不仅能解题，还能生成高质量题目的模型，这对自动内容创建（例如生成练习工作表）非常有用。
持续基准测试流水线 – 由于基准会随每个新模型的发布而演进，它可以作为集成到 AI 产品 CI 流水线中的“活”测试工具，确保及早捕获回归。

MathDuels 为衡量 LLM 能力提供了一种更动态、对抗性和信息丰富的方式——这种方法有望成为 AI 开发者和产品团队工具箱中的常备手段。