라이프치히 벤치마크

발행: (2026년 6월 6일 PM 11:00 GMT+9)
3 분 소요

출처: Hacker News

저자:Andrei Balakin, Miklós Bóna, Marie-Charlotte Brandenburg, Clara Briand, Veronica Calvo Cortes, Shelby Cox, Jesus A. De Loera, Danai Deligeorgaki, Hannah Friedman, Tim Gehrunger, Chiara Giardino, Stephen Griffeth, Baran Hashemi, Elena Hoster, Alexander Ivanov, Nupur Jain, Aryaman Jal, Leonie Kayser, Joris Koefler, Kevin Kühn, Mario Kummer, Felix Lotter, René Marczinzik, Victor S. Miller, Alejandro Morales, Greta Panova, Gianni Petrella, Nathan Pflueger, Lakshmi Ramesh, Nikolas Rieke, Carlos Rodriguez, Andrea Rosana, Flavio Salizzoni, Otto T.P. Schmidt, Sven Ulf Schmitz, Lina Maria Simbaqueba Marin, Luca Sodomaco, Christian Stump, Bernd Sturmfels, Alexander Taveira Blomenhofer, Simon Telen, Philipp Tuchel, Emil Verkama, Carl Felix Waller, Julian Weigert, Annette Werner, Nathan Williams, Claudius Zibrowius

PDF 보기
HTML (실험적)

초록: 2026년 4월 1일부터 5월 15일까지, 49명의 수학자 그룹이 정답이 알려진 연구 수준 수학 질문 데이터셋을 구축했습니다. 대부분의 작업은 독일 라이프치히에 있는 막스 플랑크 수학과학연구소에서 35명의 참가자가 모인 3일 워크숍 Benchmarks in Leipzig 동안 수행되었습니다. 우리는 100개의 질문으로 구성된 컬렉션을 제시합니다. 이 질문들은 세 단계에 걸쳐 평가되었습니다: 최신 LLM 5개에 대한 한 번의 시도, 이어서 세 모델에 대해 각각 20회 실행한 평가, 마지막으로 두 개의 ‘무거운 사고’ 모델에 대해 각각 3회 시도했습니다. 1단계 이후에는 41개의 질문이 완전히 해결되지 않았으며, 2단계에서는 이 수가 16개로 감소했고, 3단계에서는 단 2개의 질문만이 미해결 상태로 남았습니다. 이는 LLM의 수학적 추론 능력이 점점 인상적으로 향상되고 있음을 보여줍니다.

코멘트:
8개의 벤치마크 통계표가 포함된 8페이지 + 100개의 라이프치히 벤치마크 질문이 수록된 20페이지 부록

주제:
History and Overview (math.HO); Artificial Intelligence (cs.AI); Algebraic Geometry (math.AG); Combinatorics (math.CO); Representation Theory (math.RT)

인용:
arXiv:2606.05818 [math.HO]

(또는 이 버전에 대해 arXiv:2606.05818v1 [math.HO])

https://doi.org/10.48550/arXiv.2606.05818
arXiv‑issued DOI via DataCite (등록 대기 중)

제출 이력

From: Christian Stump [이메일 보기]
[v1]
2026년 6월 4일 목요일 07:59:08 UTC (38 KB)

0 조회
Back to Blog

관련 글

더 보기 »

OpenAI, SEC에 S‑1 초안 제출

We recently submitted a confidential S-1. We expect it to leak so we’re just announcing it. We have not decided on timing yet; it may be a while because there a...