迈向自主数学研究
Source: Hacker News
Authors: Tony Feng, Trieu H. Trinh, Garrett Bingham, Dawsen Hwang, Yuri Chervonyi, Junehyuk Jung, Joonkyung Lee, Carlo Pagano, Sang‑hyun Kim, Federico Pasqualotto, Sergei Gukov, Jonathan N. Lee, Junsu Kim, Kaiying Hou, Golnaz Ghiasi, Yi Tay, YaGuang Li, Chenkai Kuang, Yuan Liu, Hanzhao Lin, Evan Zheran Liu, Nigamaa Nayakanti, Xiaomeng Yang, Heng‑Tze Cheng, Demis Hassabis, Koray Kavukcuoglu, Quoc V. Le, Thang Luong
View PDF | HTML (experimental)
摘要
近期在基础模型方面的进展已经产生了能够在国际数学奥林匹克(IMO)中获得金牌水平的推理系统。然而,从竞赛级别的问题求解转向专业研究,需要在浩瀚的文献中导航并构建长期的证明。在本工作中,我们引入 Aletheia,一种在自然语言中端到端迭代生成、验证和修订解答的数学研究代理。具体而言,Aletheia 由针对挑战性推理问题的高级 Gemini Deep Think 版本驱动,采用一种新颖的推理时尺度定律,能够超越奥林匹克级别的问题,并通过密集的工具使用来应对数学研究的复杂性。
我们展示了 Aletheia 从奥林匹克题目到博士水平练习的能力,尤其是在 AI 辅助数学研究的若干里程碑上:
- (a) 一篇由 AI 完全独立生成的研究论文(Feng26),计算了算术几何中称为 eigenweights 的某些结构常数;
- (b) 一篇展示人机协作的研究论文(LeeSeo26),证明了关于相互作用粒子系统(称为 independent sets)的界限;
- (c) 一项广泛的半自主评估(Feng et al., 2026a),对 Bloom 的 Erdos 猜想数据库中的 700 个开放问题进行评估,其中包括对四个开放问题的自主解答。
为了帮助公众更好地理解 AI 与数学的最新进展,我们建议量化 AI 辅助结果的标准自主性和新颖性水平,并提出一种用于透明度的 human‑AI interaction cards(人机交互卡)新概念。我们在结尾处对数学中的人机协作进行反思,并在 GitHub 仓库 中分享所有提示词以及模型输出。
评论
35 页。配套博客文章: Accelerating mathematical and scientific discovery with Gemini Deep Think
主题
- 机器学习 (cs.LG)
- 人工智能 (cs.AI)
- 计算与语言 (cs.CL)
- 计算机与社会 (cs.CY)
引用
- arXiv:2602.10177 – (cs.LG)
- DOI:
提交历史
- v1 – Tue, 10 Feb 2026 18:50:15 UTC (2,611 KB) – submitted by Thang Luong
- v2 – Thu, 12 Feb 2026 18:27:29 UTC (2,612 KB) – submitted by Thang Luong