[Paper] Generative Adversarial Reasoner: Adversarial Reinforcement Learning을 통한 LLM 추론 강화

발행: (2025년 12월 19일 오전 03:59 GMT+9)
9 min read
원문: arXiv

Source: arXiv - 2512.16917v1

개요

이 논문은 Generative Adversarial Reasoner (GAR) 를 소개한다. 이는 대형 언어 모델(LLM) 중 하나를 “reasoner”(추론자) 역할로, 또 다른 LLM을 “discriminator”(판별자) 역할로 짝지은 새로운 학습 프레임워크이다. 두 모델이 적대적 강화 학습을 통해 경쟁하고 협력하도록 함으로써, GAR는 밀도 높은 단계‑별 피드백을 제공하여 LLM‑생성 수학적 추론의 논리적 일관성과 정확성을 크게 향상시킨다.

핵심 기여

  • Joint adversarial training of a reasoning LLM and a discriminator LLM, providing on‑policy, fine‑grained rewards for each reasoning step. → 추론 LLM과 판별기 LLM을 공동으로 적대적 훈련하여, 각 추론 단계마다 온‑폴리시, 세밀한 보상을 제공합니다.
  • Compute‑efficient review schedule that splits a reasoning chain into equally sized, logically complete slices, enabling the discriminator to evaluate each slice with concise, structured justifications. → 추론 체인을 동일한 크기의 논리적으로 완전한 조각으로 나누는 계산 효율적인 검토 일정으로, 판별기가 각 조각을 간결하고 구조화된 근거로 평가할 수 있게 합니다.
  • Dense reward signal that complements the usual sparse exact‑match reward, improving credit assignment and sample efficiency during RL fine‑tuning. → 일반적인 희소한 정확도 일치 보상을 보완하는 조밀한 보상 신호로, RL 미세 조정 시 신용 할당과 샘플 효율성을 향상시킵니다.
  • Empirical gains on hard math benchmarks (e.g., AIME‑24) that surpass strong baselines by up to +10 absolute points. → 어려운 수학 벤치마크(e.g., AIME‑24)에서 실증적인 향상을 달성했으며, 강력한 베이스라인을 최대 +10 절대 점수까지 능가합니다.
  • Modular discriminator design that can be re‑used for other objectives such as teacher distillation, preference alignment, or proof‑style reasoning. → 교사 증류, 선호 정렬, 혹은 증명 스타일 추론과 같은 다른 목표에 재사용할 수 있는 모듈식 판별기 설계.

방법론

  1. Reasoner LLM은 문제(예: 수학 질문)에 대한 다단계 해결책을 생성합니다.
  2. 해결책은 슬라이스라는 비교 가능한 길이(예: 2–3개의 추론 단계)로 분할되며, 각 슬라이스가 자체적으로 논리적 단위를 이루도록 보장하는 결정론적 스케줄을 사용합니다.
  3. Discriminator LLM은 각 슬라이스를 받아 짧은 정당화와 이진 판단을 제공합니다: valid vs. invalid.
  4. Adversarial RL 루프:
    • Reasoner는 Discriminator가 valid라고 표시하고 최종적으로 올바른 정답에 도달하는 각 슬라이스에 대해 보상을 받습니다.
    • Discriminator는 오류를 정확히 찾아내거나 올바른 슬라이스를 확인함으로써 보상을 받습니다.
  5. 두 모델은 on‑policy 방식으로 업데이트됩니다(즉, 현재 정책의 자체 출력물을 사용). 이를 통해 최종 답을 기다리는 대신 단계별 밀집 피드백을 얻을 수 있습니다.
  6. 표준 RL 기법(예: PPO)이 적용되지만, 이제 보상 형태가 Discriminator의 판단 덕분에 훨씬 풍부해집니다.

결과 및 발견

모델 (베이스라인)AIME‑24 점수GAR‑강화 점수Δ
DeepSeek‑R1‑Distill‑Qwen‑7B54.061.3+7.3
DeepSeek‑R1‑Distill‑Llama‑8B43.753.7+10.0
  • 다양한 다른 수학 데이터셋(예: GSM‑8K, MATH)에서도 GAR는 일관되게 강력한 RL‑미세조정 베이스라인보다 높은 성능을 보였다.
  • 소거 연구에서 slice‑level rewards가 성능 향상에 가장 크게 기여함을 보여주었으며, 이는 조밀한 피드백의 중요성을 확인한다.
  • 디스크리미네이터는 경량(≈0.5 B 파라미터)임에도 불구하고 높은 탐지 정확도를 달성했으며, 이는 적대적 역할에 전체 규모의 LLM이 필요하지 않음을 시사한다.

Practical Implications

  • Better debugging tools: 판별기의 구조화된 정당성을 개발자에게 “추론 감사” 형태로 제공함으로써 모델이 정확히 어디서 오류가 발생했는지 pinpoint(지적)할 수 있다.
  • Higher‑quality code generation: 생성된 코드의 각 라인이나 블록을 슬라이스로 취급함으로써 GAR을 조정하여 논리적 버그를 조기에 포착하고, LLM‑기반 프로그래밍 어시스턴트의 신뢰성을 향상시킬 수 있다.
  • Efficient fine‑tuning: 밀집 보상이 목표 정확도에 도달하는 데 필요한 샘플 수를 줄여, 자체 LLM을 파인튜닝하는 조직의 연산 비용을 절감한다.
  • Customizable reward shaping: 판별기가 모듈식이기 때문에 팀은 도메인 특화 기준(예: 보안 제약, 스타일 가이드)을 전체 추론기를 처음부터 재학습하지 않고도 삽입할 수 있다.
  • Teacher‑student distillation: 고성능 판별기는 “교사” 역할을 하여 작은 학생 모델이 보다 건전한 추론을 하도록 안내하고, 경량 배포를 가능하게 한다.

제한 사항 및 향후 연구

  • 슬라이스 품질 의존성: 현재 일정은 논리적 단계가 깔끔하게 구분될 수 있다고 가정합니다; 상호 의존성이 높은 추론은 단편화된 평가로 인해 어려움을 겪을 수 있습니다.
  • 판별기 용량: 경량임에도 불구하고 판별기는 미묘한 오류를 오분류할 수 있어, 이유추론기에 잡음이 섞인 보상이 전달될 수 있습니다.
  • 도메인 전이: 실험은 수학적 추론에 초점을 맞추고 있습니다; GAR을 자연어 작업(예: 상식 추론)에 적용하려면 슬라이스 정의와 정당화 형식을 재설계해야 할 수 있습니다.
  • 초대형 모델에 대한 확장성: 두 개의 LLM을 공동으로 학습하면 메모리 사용량이 두 배가 됩니다; 향후 연구에서는 파라미터 공유나 지식 증류 기법을 탐색하여 이를 완화할 수 있습니다.

저자들은 적응형 슬라이스 길이, 멀티모달 판별기(예: 코드 + 실행 추적) 탐색과 인간‑인‑루프 피드백을 통합하여 적대적 루프를 더욱 강화할 것을 제안합니다.

저자

  • Qihao Liu
  • Luoxin Ye
  • Wufei Ma
  • Yu-Cheng Chou
  • Alan Yuille

논문 정보

  • arXiv ID: 2512.16917v1
  • 분류: cs.AI, cs.CL, cs.LG
  • 출판일: 2025년 12월 18일
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »

[Paper] 추론이 법칙을 만날 때

대규모 추론 모델(LRMs)의 우수한 성능에도 불구하고, 그들의 추론 행동은 종종 직관에 반하여 최적 이하의 추론 능력을 초래한다.