[논문] 확산‑프루프: 자동 회귀 생성 넘어선 형식적 정정 증명 레시피

발행: (2026년 6월 18일 AM 02:38 GMT+9)
4 분 소요
원문: arXiv

Overview

최근 몇 년간 수학적 추론 능력을 강화하는 대형 언어 모델(LLM)의 능력은 수학 및 컴퓨터 과학 커뮤니티에서 핵심 관심사로 부상했습니다. 최첨단 자동 회귀(AR) LLM을 활용한 형식 정리에 대한 중요한 진전이 이루어졌지만, 이러한 모델은 고유한 한계를 가지고 있습니다. 다음 토큰 예측 생성 방식은 장거리 일관성 문제와 긴 시퀀스에서의 오류 누적으로 인해 비효율적인 결과를 낼 수 있습니다. 다중 토큰 블록을 반복적으로 노이즈 제거하는 디퓨전 LLM(dLLM) 최근 발전은 유망한 대안으로 부상했습니다. 하지만 형식 수학에 적용되는 dLLM은 장거리 일관성을 유지하는 것이 핵심인 분야이므로 아직 충분히 연구되지 않았습니다. 위 문제를 해결하기 위해 우리는 Diffusion‑Proof를 제안합니다. 이는 형식 정리에 dLLM을 훈련하고 적용하는 최초의 프레임워크로,我所知 지금까지 존재하지 않았습니다. 우리의 프레임워크는 두 개의 모델에 대한 학습 및 추론 방법을 포함하고 있습니다. 첫 번째 모델은 dLLM‑Prover-7B이며, 전체 증명을 작성하면서 장거리 일관된 전술 사용을 수행합니다. 두 번째 모델은 dLLM‑Corrector-7B로, 대용량 블록 디퓨전 기반의 새로운 교정 모델입니다. 이 모델은 dLLM의 채우기 능력을 활용해 양방향 정보를 사용하여 로컬 증명 교정을 수행합니다. 광범위한 실험 결과는 Diffusion‑Proof가 동일한 데이터셋으로 훈련된 AR LLM 베이스라인보다 상대적으로 크게 우수함을 보여줍니다. Diffusion‑Proof는 베이스라인에 비해 ProofNet‑Test에서 절대 개선 1.61%, MiniF2F‑Test에서 6.14%의 향상을 달성합니다. 특히 Diffusion‑Proof는 고급 사고 모델인 DeepSeek‑Prover‑V2‑7B가 해결하지 못한 IMO 문제를 성공적으로 해결했으며, 이는 dLLM이 형식 정리에 갖는 독특한 장점을 보여줍니다.

Key Contributions

본 논문은 다음 분야를 다룹니다:

  • cs.LG

Methodology

자세한 방법については 전체 논문을 참고하십시오.

Practical Implications

본 연구는 cs.LG의 발전에 기여합니다.

Authors

  • Ruida Wang
  • Rui Pan
  • Pengcheng Wang
  • Shizhe Diao
  • Tong Zhang

Paper Information

  • arXiv ID: 2606.19315v1
  • Categories: cs.LG
  • Published: 2026년 6월 17일
  • PDF: 다운로드 PDF
0 조회
Back to Blog

관련 글

더 보기 »