[Paper] Reasoning Core: 스케일러블 절차적 데이터 생성 스위트 for Symbolic Pre‑training and Post‑Training

발행: (2026년 3월 3일 오전 03:59 GMT+9)
11 분 소요
원문: arXiv

Source: arXiv - 2603.02208v1

Overview

논문은 Reasoning Core라는 새로운 오픈‑소스 스위트를 소개한다. 이 스위트는 실시간으로 대량의 검증 가능한 상징적 추론 데이터를 생성할 수 있다. 계획 문제, 1차 논리 명제, 문법 파싱, 베이지안‑네트워크 인과관계, 방정식 시스템과 같은 작업을 절차적으로 생성함으로써, 저자들은 언어‑모델 연구자들에게 정확히 검증 가능한 그리고 지속적으로 확장 가능한 데이터에 대해 모델을 사전 학습하거나 미세 조정할 수 있는 방법을 제공한다. 실험 결과, 이러한 데이터를 모델의 사전 학습 혼합에 조금씩 추가하면 하위 작업의 추론 능력이 향상되며, 원시 언어‑모델 성능에 손해를 주지 않고 (때로는 오히려 개선)한다.

주요 기여

  • 절차적 생성기 스위트는 다섯 가지 핵심 형식 도메인(PDDL 계획, 동등성을 포함한 1차 논리, CFG 파싱, 베이지안 네트워크 인과 추론, 선형 방정식 풀이)을 포괄합니다.
  • 외부 솔버가 각 생성기에 연결되어 모든 샘플을 자동으로 엄격히 검증합니다.
  • 난이도‑커리큘럼 제어를 통해 사용자가 생성된 인스턴스의 복잡성을 부드러운 스케일로 조절할 수 있습니다.
  • 선택적 추론 추적(단계별 솔버 출력)은 초기 사전 학습 단계부터 감독 학습에 활용될 수 있습니다.
  • 통합 API는 강화 학습 실험을 위한 검증 가능한 보상 함수도 제공합니다.
  • 실증적 증거는 Reasoning Core 데이터를 대규모 사전 학습에 혼합하면 벤치마크 작업에서 제로샷 추론 성능이 향상되면서 언어 모델의 퍼플렉시티는 유지된다는 것을 보여줍니다.

Methodology

  1. Task Generation – 각 형식 도메인에 대해 가벼운 절차적 엔진이 문제 매개변수(예: 객체, 술어, 문법 규칙, 네트워크 토폴로지)를 무작위로 인스턴스화합니다. 무작위성은 시드가 지정되어 동일한 “난이도 수준”이 실행마다 비교 가능한 도전을 제공합니다.
  2. Solver Verification – 상용 정확 솔버(예: PDDL 플래너, 1차 논리 정리 증명기, CFG 파서, 베이지안 추론 엔진, 선형 시스템 솔버)를 생성된 인스턴스에 실행합니다. 솔버가 해답을 찾으면 해당 인스턴스를 유지하고, 그렇지 않으면 폐기하여 모든 보존된 예제가 정답이 보장된 상태가 되도록 합니다.
  3. Trace Extraction (optional) – 솔버는 상세한 증명이나 실행 추적(예: 계획 단계, 해소 단계, 파스 트리, 변수 할당)을 출력할 수 있습니다. 이러한 추적은 원시 문제 진술과 함께 저장되어 감독 신호를 제공합니다.
  4. Curriculum Scheduling – 난이도는 숫자형 노브(예: 객체 수, 논리식 깊이, 베이지안 네트워크 크기)로 인코딩됩니다. 연구자는 균등 샘플링, 더 어려운 예제로 편향, 혹은 학습 진행에 따라 난이도를 점진적으로 높이는 커리큘럼을 선택할 수 있습니다.
  5. Integration with Language‑Model Training – 생성된 (문제, 해답) 쌍을 토크나이즈하여 일반적인 다음 토큰 예측 목표에 섞어 사용합니다. RL‑스타일 실험의 경우, 스위트는 결정적 보상(예: 모델의 답변이 솔버의 답변과 일치하면 1, 아니면 0)도 반환합니다.

결과 및 발견

실험설정주요 지표결과
Pre‑training mix (Reasoning Core + standard web text)10 B 토큰 모델, 5 % Reasoning Core 데이터Zero‑shot 논리 추론 (MATH, ProofWriter)베이스라인 대비 절대 정확도 +8–12 %
Language‑model quality동일 믹스, WikiText‑103에 대한 퍼플렉시티 평가Perplexity약간 낮은(더 좋은) 퍼플렉시티, ≈ 0.3 % 개선
Curriculum vs. uniform sampling고정 vs. 점진적으로 난이도 증가추론 벤치마크 점수커리큘럼이 가장 어려운 과제에서 약 3 % 높은 정확도 제공
Trace‑supervised pre‑training솔버 트레이스를 보조 목표로 포함하위 추론증명 생성 과제에서 추가 2–4 % 향상
Zero‑shot on frontier model (GPT‑5)보지 않은 Reasoning Core 과제로 프롬프트성공률과제의 약 30 %만 해결되어 난이도를 확인

전체적으로, 데이터는 모델의 유창한 텍스트 생성 능력을 저하시키지 않으며, 순수 언어‑모델 사전 학습만으로는 어려운 상징적 추론 벤치마크에서 성능을 크게 향상시킵니다.

실용적 함의

  • 하위 도구를 위한 더 나은 추론 – 코드 어시스턴트, 자동 정리 증명기, 혹은 플래닝 봇을 개발하는 사람들은 이제 목표 작업의 논리 구조를 반영하는 데이터로 사전 학습할 수 있어, 보다 신뢰할 수 있는 출력물을 얻을 수 있다.
  • 커리큘럼 기반 파인튜닝 – 난이도 조절 장치는 “점진적 과부하” 전략을 가능하게 한다: 간단한 퍼즐부터 시작해 점차 더 어려운 퍼즐을 도입한다, 마치 인간 학습처럼. 이는 목표 정확도에 도달하기 위해 필요한 파인튜닝 단계 수를 줄일 수 있다.
  • 강화 학습 환경 – 각 인스턴스가 결정론적 보상을 제공하므로, 이 스위트는 상징적 추론에 대한 RL 연구를 위한 샌드박스로 활용될 수 있다 (예: 에이전트에게 계획을 세우거나 방정식을 푸는 방법을 가르치는 등).
  • 오픈소스 및 확장성 – MIT 라이선스 코드를 기존 데이터 파이프라인에 바로 삽입할 수 있으며, 모듈식 설계 덕분에 새로운 도메인(예: 그래프 이론 문제, 타입 이론 연습)을 추가하는 것이 간단하다.
  • 벤치마크 생성 – 연구자들은 필요에 따라 맞춤형 검증 가능한 테스트 세트를 생성할 수 있어, 상징 데이터셋을 수동으로 선별하거나 검증할 필요가 없어진다.

제한 사항 및 향후 연구

  • Solver 병목 현상 – 대량의 데이터를 생성하고 검증하는 것은 연산 집약적이며; 트릴리언 토큰 규모로 확장하려면 분산 Solver 팜이나 근사 검증이 필요할 수 있습니다.
  • 도메인 커버리지 – 다섯 개의 핵심 도메인이 폭넓지만, 실제 세계의 많은 추론 작업(예: 확률 프로그래밍, 고차 논리)은 아직 포함되지 않았습니다.
  • 전이 격차 – 관찰된 향상은 일관되지만, 매우 큰 모델(e.g., GPT‑5)에서는 그 폭이 미미하여 모델 용량이 커질수록 수익 감소가 예상됩니다.
  • 인간 가독성 – 일부 생성된 인스턴스(특히 대규모 베이지안 네트워크)는 인간이 검토하기에 다루기 어려워 수동 디버깅이 제한됩니다.

향후 연구에서는 모델 성능에 기반한 적응형 난이도 스케줄링을 탐색하고, 근사 Solver를 통합해 데이터 생성 속도를 높이며, 도메인 특화 추론(예: 보안 정책 분석, 하드웨어 검증)을 포괄하도록 스위트를 확장할 수 있습니다.

Reasoning Core는 오늘날 언어 모델을 구동하는 방대한 사전 학습 파이프라인에 엄격히 검증된 상징적 추론을 주입할 실용적인 경로를 열어, 순수 텍스트 유창성과 논리적 능력 사이의 격차를 메워줍니다.

저자

  • Valentin Lacombe
  • Valentin Quesnel
  • Damien Sileo

논문 정보

  • arXiv ID: 2603.02208v1
  • Categories: cs.CL
  • Published: 2026년 3월 2일
  • PDF: Download PDF
0 조회
Back to Blog

관련 글

더 보기 »