[Paper] Pre-Training, Mid-Training, 그리고 RL이 Reasoning Language Models에 미치는 상호작용

발행: (2025년 12월 9일 오전 03:12 GMT+9)
10 min read
원문: arXiv

Source: arXiv - 2512.07783v1

개요

이 논문은 강화학습(RL) 파인튜닝이 언어 모델(LM)을 추론에 더 능숙하게 만드는 이유와 사전 학습(pre‑training) 동안 모델이 배운 것을 넘어 새로운 능력을 실제로 언제 추가하는지를 조사한다. 완전히 제어 가능한 합성 벤치마크를 구축함으로써 저자들은 (1) 대규모 사전 학습, (2) 집중된 “중간 학습”(mid‑training) 단계, (3) RL 기반 사후 학습의 별도 효과를 분리한다. 연구 결과는 RL이 실제로 추론을 향상시키는 조건을 밝히고, 이전에 충분히 인식되지 않았던 중간 학습의 역할을 강조한다.

주요 기여

  • 제어된 실험 프레임워크: 명시적인 원자 연산과 단계별 추적 가능한 해답을 갖는 합성 추론 과제, 성능 향상의 인과관계를 명확히 할 수 있음.
  • 3단계 학습 분석: 동일한 연산 예산 하에서 사전 학습, 중간 학습, RL 파인튜닝을 체계적으로 비교.
  • 경계 조건 통찰: 사전 학습 후 모델에 “여유 공간”(headroom)이 남아 있고 RL 데이터가 모델 역량의 경계에 있을 때만 RL이 실제 능력 향상을 제공.
  • 맥락 전이: 최소하지만 충분한 사전 학습 노출만 있으면 RL이 다른 표면 형태(예: 패러프레이즈)에서도 추론을 일반화할 수 있음.
  • 중간 학습 이점: 목표 연산에 대한 집중된 중간 학습 단계(비 RL)를 추가하면 동일한 연산 예산에서 RL‑only 파인튜닝보다 일관되게 우수한 성능을 보임.
  • 프로세스‑레벨 보상: 올바른 중간 추론 단계를 보상함으로써 보상 해킹을 감소시키고 생성된 추론 트레이스의 충실도를 향상.

방법론

  1. 합성 추론 스위트 – 저자들은 장난감 문제 집합(예: 리스트에 대한 산술, 기호 조작)을 구성하고, 이를 원자 연산(덧셈, 곱셈, 조회 등)의 순서로 분해한다. 각 문제는 정답 추론 트레이스를 제공하므로 모델의 답변이 올바른 단계들을 따르는지 쉽게 검증할 수 있다.

  2. 학습 단계

    • 사전 학습: 무작위 텍스트로 시뮬레이션된 일반 코퍼스에 대한 대규모 언어 모델링으로, 모델에 기본 언어 지식을 부여.
    • 중간 학습: 합성 과제의 일부에 대해 집중된 지도 학습 단계이며, RL 신호 없이 추론 연산의 구조를 모델에 가르치는 것이 목표.
    • RL 사후 학습: Proximal Policy Optimization(PPO)을 사용하며, 보상은 최종 정답 정확도 (프로세스‑보상 변형에서는) 각 중간 단계의 정확도에 기반함.
  3. 평가 축

    • 외삽 일반화: 학습 중 본 것보다 더 길거나 더 깊게 중첩된 구성을 테스트.
    • 맥락 일반화: 동일한 논리 과제가 다른 표현이나 형식으로 제시될 때 테스트.
  4. 제어 변수 – 연산 예산, 모델 크기, 데이터 분포를 모든 실험에서 동일하게 유지하여 세 단계 간 인과적 비교를 명확히 함.

결과 및 발견

학습 체계외삽 (pass@128)맥락 전이연산 효율성
사전 학습만낮음 (≈10 %)거의 무작위기준선
중간 학습만 (RL 없음)중간 (≈35 %)좋음 (≈70 %)
RL만 (사전 학습 후)사전 학습에 여유가 있을 때만 높음 (≈55 %)사전 학습이 최소 노출을 제공하면 좋음
중간 학습 + RL전체 최고 (≈70 % 외삽, ≈85 % 맥락)가장 높은 전이RL‑only와 동일
  • RL 이득은 조건부: 사전 학습이 과제 분포를 이미 포화시켰다면 RL은 거의 효과가 없으며, 모델이 아직 “경계”에 있을 때 RL이 성능을 끌어올린다.
  • 프로세스‑레벨 보상은 “보상 해킹”(예: 올바른 답만 출력하고 추론 과정을 무시) 을 약 15 % 감소시키고 트레이스 정확도를 향상시킨다.
  • 중간 학습의 강점: 동일한 연산 예산으로 목표 추론 패턴에 대한 짧은 지도 학습 단계가 RL 단독보다 큰 성능 도약을 제공한다는 점은 문제의 형태를 먼저 가르치는 것이 핵심임을 시사한다.

실용적 함의

  • RL 파이프라인 설계: 비용이 많이 드는 RL 파인튜닝을 시작하기 전에 기본 모델이 목표 과제에 아직 여유 용량이 있는지 확인하라. RL 데이터를 모델 역량의 경계에 배치하는 커리큘럼을 사용하고, 너무 멀리 떨어진 데이터는 피한다.
  • 중간 학습을 저비용 부스트로 활용: 다운스트림 과제(예: 코드 분석, 수학, 논리 추론)의 핵심 추론 원시 연산에 초점을 맞춘 짧은 지도 “중간 학습” 단계를 삽입하라. 이는 RL보다 훨씬 저렴하면서도 동등하거나 더 나은 성능 향상을 제공한다.
  • 보상 설계: 중간 단계 검증(예: 단위 테스트, 기호 검증)을 RL 보상에 포함시켜 신뢰할 수 있는 추론을 강제하라. 이는 자동 정리 증명이나 금융 의사결정 지원과 같은 안전‑중요 애플리케이션에 특히 중요하다.
  • 맥락 간 전이: 사전 학습 중 다양한 표면 형태에 최소한의 노출(또는 빠른 “맥락 파인튜닝”)만 있으면 RL이 새로운 표현에도 추론을 일반화할 수 있어 방대한 데이터 증강이 필요하지 않다.
  • 연산 예산 배분: 고정된 연산 예산이 있을 때, RL 전에 중간 학습에 일부를 할당하면 전체 성능이 RL에 전부 투자할 때보다 높아진다.

제한점 및 향후 연구

  • 합성 도메인: 벤치마크는 깨끗하고 결정론적인 연산을 갖는 장난감 과제에 국한된다. 실제 세계 추론(예: 상식, 코드 생성)은 더 복잡하고 동일한 패턴을 따르지 않을 수 있다.
  • 규모: 실험은 비교적 작은 모델(≈125 M 파라미터)에서 수행되었다. 수십억 파라미터 규모의 LM에 동일한 결과가 적용되는지는 아직 미확인이다.
  • 보상 설계 복잡성: 프로세스‑레벨 보상은 중간 단계를 자동으로 검증할 방법이 필요하며, 이는 비구조적 도메인에서는 어려울 수 있다.
  • 향후 방향: 반합성 혹은 자연어 기반 추론 데이터셋으로 프레임워크 확장, RL 경계 데이터를 위한 자동 커리큘럼 생성 탐색, 대규모·멀티모달 모델에서의 상호작용 검증.

저자

  • Charlie Zhang
  • Graham Neubig
  • Xiang Yue

논문 정보

  • arXiv ID: 2512.07783v1
  • 분류: cs.CL
  • 발표일: 2025년 12월 8일
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »