MIT 科学家构建全球最大的奥赛级数学题库，并向所有人开放

发布: 1周前 (2026年4月25日 GMT+8 01:00)

10 分钟阅读

Source: MIT News - AI

概览

每年，参加国际数学奥林匹克（IMO）的各国会携带一本收录其最佳、最具创新性的题目小册子。这些小册子在各代表团之间共享后便悄然消失。此前从未有人系统地收集、整理并公开这些题目——既不是为了测试数学推理极限的 AI 研究者，也不是为了全球自行备战的学生们提供资源。

来自 MIT 计算机科学与人工智能实验室（CSAIL）、阿卜杜拉国王科技大学（KAUST）以及公司 HUMAIN 的研究人员现在正是完成了这项工作。

什么是 MathNet？

MathNet 是迄今为止规模最大、质量最高的基于证明的数学题目数据集。

规模： > 30,000 条专家撰写的题目及解答
覆盖范围： 47 个国家，17 种语言，143 场竞赛
规模优势： 是同类下一个最大数据集的五倍

该工作将在本月晚些时候于巴西召开的国际学习表征会议（ICLR）上进行展示。

为什么 MathNet 与众不同

使 MathNet 与众不同的，不仅是它的规模，还有它的广度。

以前的奥林匹克级数据集几乎只来源于美国和中国的竞赛。
MathNet 覆盖六大洲的数十个国家，涉及 17 种语言，包含 文本和图像 两种形式的题目和解答，且跨越四十年的竞赛数学。

“每个国家都会带来一本包含其最新颖、最具创意的题目的小册子，” MIT 博士生兼论文第一作者 Shaden Alshammari 说。“他们相互分享这些小册子，但没有人曾经努力收集、清理并上传到网上。”

构建数据集

来源材料： 1,595 份 PDF 卷，共计超过 25,000 页，涵盖从数字文档到数十年前的扫描件。
主要贡献者： Navid Safaei，IMO 社区的长期成员和合著者，自 2006 年起亲手收集并扫描这些小册子。他的个人档案构成了数据集的主要骨干。

来源的重要性

大多数现有数学数据集从社区论坛（如 Art of Problem Solving，AoPS）获取题目，而 MathNet 仅从官方国家竞赛小册子中抽取。

解答由专家撰写，经过同行评审，往往跨越多页，作者会详细阐述同一道题的多种解法。
这种深度为 AI 模型提供了比社区来源数据集中常见的简短、非正式解答更丰富的数学推理信号。

“我记得有很多学生是靠个人努力的。没有人在他们的国家为这种比赛进行培训，”曾以学生身份参加 IMO 的 Alshammari 说。“我们希望这能为他们提供一个集中、高质量题目和解答的学习平台。”

社区参与

团队关联： Sultan Albarakati，作为共同作者之一，现任IMO董事会成员。
验证： 来自亚美尼亚、俄罗斯、乌克兰、越南、波兰及其他国家的30多名人工评审组成的评分小组验证了数千个解答。

“MathNet 数据库有潜力成为学生和领袖寻找新题目或寻找困难问题解答的极佳资源，” Tanish Patil（瑞士IMO副领袖）说。“虽然其他奥林匹克题目档案确实存在（尤其是 AoPS 上的 Contest Collections 论坛），但这些资源缺乏标准化的格式系统、经过验证的解答以及主题和理论所需的重要题目元数据。观察该数据集如何用于提升推理模型的性能也很有趣，并且我们是否能很快可靠地解决在创建新奥林匹克题目时的一个重要问题：判断一个题目是否真正原创。”

AI 性能基准

MathNet 也充当了 AI 性能的严格基准，其结果呈现出比近期关于 AI 数学能力的头条新闻更为复杂的图景。

前沿模型： 有报告称某些模型在国际数学奥林匹克（IMO）中获得金牌级表现，并且现在能够解决大多数人类难以应对的问题。
MathNet 结果： 即使是测试中表现最好的 GPT‑5，也在 MathNet 的 6,400 题主基准上平均取得 ≈ 69.3 % 的得分，约有三分之一的奥林匹克级题目未能解答。
视觉推理： 当题目包含图形时，整体性能显著下降，暴露出即使是最强模型在视觉推理方面仍是一个持续的薄弱环节。

语言差距

多个开源模型在蒙古语题目上得分 0 %，凸显出当前 AI 系统在整体实力强大的同时，在某些维度仍存在不足。

“GPT 模型在英语和其他语言上表现同样出色，” Alshammari 说。“但许多开源模型在较少使用的语言（如蒙古语）上完全失效。”

Source: …

更广泛的影响

MathNet 的多样性也旨在解决 AI 模型学习数学时的一个更深层次的局限。当训练数据偏向英文和中文题目时，模型只吸收了数学文化的狭窄片段。一个罗马尼亚的组合学问题或巴西的数论

… (原文在此处突然结束)。

Source: …

MathNet：数学推理的新基准

关键洞见

作者认为，让人类和 AI 系统接触大量多样化的问题——即使这些问题表面上看起来相似，但底层结构不同——有助于培养更强的数学思维能力。

检索基准

目标： 测试模型是否能够识别两个问题在底层数学结构上是否相同。
动机：
- 多年来，真实的 IMO 考试中出现了近似重复的问题。
- 在不同的符号、语言和格式之间识别数学等价关系，即使对专家人类委员会来说也很具挑战性。
发现：
- 评估了八种最先进的嵌入模型。
- 表现最好的模型在第一次尝试时仅**约 5 %**的概率找到正确匹配。
- 模型常常把结构上不相关的问题排得比真正等价的问题更相似。

检索增强生成基准

目的： 判断在让模型解决新问题之前，提供一个结构相关的问题是否能提升其表现。
结果：
- 当检索到的问题真正相关时，性能提升。
- DeepSeek‑V3.2‑Speciale 在匹配良好的检索条件下提升了12 个百分点。
- 不相关的检索在大约 22 % 的情况下导致性能下降。

作者与资助

作者：
- Shaden Alshammari（第一作者）
- Navid Safaei
- HUMAIN AI 工程师 Abrar Zainal
- Sultan Albarakati（KAUST 学院主任）
- MIT CSAIL 同事：
  - 硕士生 Kevin Wen（SB ’25）
  - 微软首席工程经理 Mark Hamilton（SM ’22，PhD ’25）
  - 教授 William Freeman 与 Antonio Torralba
资助来源：
- Schwarzman 计算学院奖学金
- 美国国家科学基金会（NSF）

访问方式

MathNet 可公开获取于： .