[Paper] 学习具备洞察的推理用于非形式定理证明

发布: 3周前 (2026年4月18日 GMT+8 01:36)

7 分钟阅读

原文: arXiv

Source: arXiv - 2604.16278v1

概述

本文解决了在使用大型语言模型（LLMs）进行非形式化定理证明时的一个根本障碍：模型往往缺乏洞察——即指导证明的核心技巧或“啊哈”步骤。通过显式教导 LLM 识别并运用这些技巧，作者展示了在解决以自然语言表述的高难度数学问题时，模型性能有了显著提升。

DeepInsightTheorem 数据集 – 一个层次化的非正式证明集合，将 (1) 核心技术、(2) 简明的 证明概述、以及 (3) 完整的详细证明分离开来。
渐进式多阶段监督微调 (SFT) – 一个课程学习管线，首先在基础证明写作上训练模型，然后在提取核心技术上训练，最后在生成带有洞察感知指导的完整证明上训练。
实证验证 – 在已建立的数学推理基准（例如 MATH、MiniF2F）上进行的大量实验表明，洞察感知方法相较于强基线提升了最高 15 % 的绝对准确率。
洞察使用分析 – 消融研究显示，显式建模核心技术贡献了大部分性能提升。

人类标注者将每个非形式化定理分解为三层：
- Technique（技术）: 一个简短短语，例如 “use induction on n”（对 n 进行归纳）或 “apply Cauchy‑Schwarz”（使用柯西‑施瓦茨不等式）。
- Sketch（草图）: 对技术如何应用的高级概述。
- Full Proof（完整证明）: 逐步的自然语言证明。
该层次结构使模型能够先学习 做什么（what），再学习 如何做（how）。

基准测试	基线 (SFT)	Insight‑Aware（提出的）	Δ 准确率
MATH（困难子集）	38.2 %	51.7 %	+13.5 %
MiniF2F（几何）	44.5 %	58.9 %	+14.4 %
GSM8K（代数）	62.1 %	71.3 %	+9.2 %

Developer tooling：将“洞察提取”模块集成到代码助手或教育机器人中，可以让基于 LLM 的数学辅导更加可靠和透明。
Automated verification pipelines：通过公开核心技术，下游符号检查器可以专注于验证更小、更明确的子问题，从而降低计算开销。
Cross‑domain reasoning：层次化方法可以迁移到其他需要高层策略的领域（例如算法设计、安全性证明生成、科学假设形成）。
Curriculum‑learning APIs：渐进式微调配方足够轻量，可包装为“训练计划”服务，供任何希望在不进行大规模数据收集的情况下提升推理能力的 LLM 提供商使用。

结论：通过教会大型语言模型首先识别证明背后的“关键思路”，作者们开启了非正式定理证明性能的新水平——这一方法可以在许多 AI 辅助推理任务中重新利用。