[Paper] 탐색 vs. 활용: 클리핑, 엔트로피, 그리고 Spurious Reward를 통한 RLVR 재고찰

발행: (2025년 12월 19일 오전 03:59 GMT+9)
9 min read
원문: arXiv

Source: arXiv - 2512.16912v1

개요

이 논문은 두 가지 겉보기에 역설적인 트릭—spurious rewards처럼 잘못된 대상을 보상하는 경우와 entropy minimization처럼 언어 모델이 과도하게 자신감 있는 예측을 하도록 만드는 경우—가 Reinforcement Learning with Verifiable Rewards (RLVR) 로 미세 조정될 때 대형 언어 모델(LLM)의 추론 능력을 어떻게 향상시키는지를 조사한다. 정책 엔트로피, 클리핑 바이어스, 보상 불일치 간의 상호 작용을 분석함으로써, 저자들은 이러한 트릭이 작동하게 하는 숨겨진 역학을 밝혀내고 수학 중심 또는 논리 집약적인 작업을 위한 LLM 훈련의 보다 원칙적인 방법을 제안한다.

주요 기여

  • 이론적 분석은 스퓨리어스 보상 하에서 클리핑 바이어스가 정책 엔트로피의 체계적인 감소와 연결된다는 것을 보여줍니다.
  • 경험적 증거는 엔트로피 감소만으로는 더 나은 추론을 보장하지 않으며, 이점은 스퓨리어스 보상과의 상호작용에서 비롯된다는 것을 보여줍니다.
  • 보상 불일치 모델은 스퓨리어스 보상이 정규화 역할을 하여 모델이 오염된(잘못된) 보상 신호에 과적합되는 것을 방지하는 방식을 설명합니다.
  • 가이드라인은 엔트로피와 보상 형태를 의도적으로 제어하여 보다 신뢰할 수 있는 LLM 추론을 달성하도록 RLVR 파이프라인을 설계하는 방법을 제시합니다.
  • 오픈 소스 코드 및 재현성 패키지(논문과 함께 공개)로 표준 수학 추론 벤치마크에서 실험을 재현할 수 있습니다.

Source:

Methodology

  1. Setup – 저자들은 표준 RLVR 루프를 사용합니다: LLM이 해결책을 생성하고, 검증자가 정답 여부를 확인하며, 보상이 할당됩니다. 두 가지 보상 변형을 검토합니다:

    • Ground‑truth reward: 정답이면 1, 그렇지 않으면 0.
    • Spurious reward: 가끔 잘못된 답에도 보상을 주는 잡음 신호(예: 피상적인 토큰 패턴에 기반).
  2. Clipping & Entropy Control – 정책 업데이트 중에, PPO와 같이 그래디언트를 클리핑하여 학습을 안정화합니다. 저자들은 클리핑 임계값을 다양하게 조정하고 손실에 엔트로피 정규화 항을 명시적으로 추가합니다.

  3. Metrics

    • Policy entropy (생성된 시퀀스 전반에 걸친 토큰당 평균 엔트로피).
    • Reasoning accuracy 벤치마크 데이터셋(MATH, GSM‑8K 등)에서의 정확도.
    • Clipping bias는 클리핑되지 않은 그래디언트 크기와 클리핑된 그래디언트 크기의 평균 차이로 측정합니다.
  4. Experiments – 서로 다른 클리핑 임계값, 엔트로피 계수, 보상 유형을 조합한 그리드 구성을 세 가지 LLM 크기(7B, 13B, 34B)에서 평가합니다. 각 실행은 stochasticity를 고려해 세 번 반복됩니다.

  5. Analysis – 상관관계 및 인과 추론 기법(예: 매개 분석)을 사용해 엔트로피 감소가 스퓨리어스 보상으로 관찰된 성능 향상을 매개하는지를 분리하여 조사합니다.

Results & Findings

ConditionAvg. Entropy ↓Reasoning Accuracy ↑
Ground‑truth reward, no entropy penaltyBaseline42%
Ground‑truth reward + strong entropy regularization–15%44% (no significant gain)
Spurious reward, default clipping–22%48%
Spurious reward + tighter clipping (lower threshold)–30%52%
Spurious reward + explicit entropy minimization–35%53%
  • Clipping bias는 클리핑 임계값을 더 엄격하게 설정할수록 증가하며, 이는 자동으로 스퓨리어스 보상 하에서 정책 엔트로피를 감소시킵니다.
  • Entropy alone(스퓨리어스 보상 없이)에서는 미미한 개선만 나타나며, 엔트로피 감소가 필수적이지만 충분하지 않음을 확인합니다.
  • 보상 불일치 모델은 스퓨리어스 보상이 검증자의 노이즈 신호에 과도하게 의존하는 것을 억제하는 “소프트 라벨” 역할을 하여 더 견고한 추론을 이끌어낸다고 예측합니다. 실험 곡선은 모델 예측과 일치합니다.

Practical Implications

  • Fine‑tuning pipelines: RLVR을 수학이나 코드 생성용 LLM에 적용할 때, 의도적으로 약간의 보상 노이즈(예: 부분적인 구문 검사에 기반한 보상)를 도입하고 그리고 gradient clipping을 강화한다. 이 조합은 모델이 대안 솔루션 경로를 탐색하는 능력을 희생하지 않으면서 결정론적 출력을 제공한다.
  • Entropy regularization: 엔트로피 페널티를 절제해서 사용한다. 공격적인 엔트로피 최소화는 스퓨리어스 보상과 함께 사용되지 않으면 성능을 저하시킬 수 있다.
  • Safety & alignment: 스퓨리어스 보상은 잠재적으로 결함이 있는 검증기를 과도하게 최적화하는 것을 방지하는 안전 밸브로 볼 수 있으며, 검증 로직이 아직 개발 중일 때 유용한 트릭이다.
  • Tooling: 공개된 코드는 인기 있는 RL 라이브러리(TR​L, HuggingFace Transformers)와 통합되며, 관측된 정책 엔트로피에 따라 클리핑 임계값을 자동으로 조정하는 플러그‑인 “RLVR‑Clipping‑Scheduler”를 제공한다.

제한 사항 및 향후 연구

  • 실험은 합성 수학 벤치마크에만 제한되어 있으며, 실제 작업(예: 법률 추론, 과학 논문 종합)에서는 검증기 노이즈 특성이 다를 수 있습니다.
  • 분석은 정적 보상 분포를 가정하지만, 실제로는 배포 중에 검증기가 진화하여 최적의 클리핑/엔트로피 균형이 변할 수 있습니다.
  • 현재 보상 불일치 모델은 잘못된 보상을 단순한 가산 노이즈 항으로 취급하고 있으며, 보다 풍부한 모델(예: 맥락적 불일치)은 향후 연구 과제로 남겨져 있습니다.
  • 수천억 개의 파라미터로 확장하는 것은 아직 테스트되지 않았으며, 저자들은 동일한 동작이 유지될 것이라고 가정하고 차세대 LLM에서 검증할 계획입니다.

핵심 요약: “나쁜” 보상과 “저엔트로피” 정책이 모두 LLM 추론을 향상시킬 수 있는 이유를 규명함으로써, 이 연구는 개발자에게 RLVR 파이프라인에서 조정할 수 있는 구체적인 파라미터(클리핑을 강화하고 제어된 양의 보상 노이즈 허용)를 제공하여 보다 신뢰성 있고 결정론적이며 수학적으로 능력 있는 언어 모델을 만들 수 있게 합니다.

저자

  • Peter Chen
  • Xiaopeng Li
  • Ziniu Li
  • Wotao Yin
  • Xi Chen
  • Tianyi Lin

논문 정보

  • arXiv ID: 2512.16912v1
  • 카테고리: cs.LG, cs.AI, cs.CL
  • 출판일: 2025년 12월 18일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »

[Paper] 추론이 법칙을 만날 때

대규모 추론 모델(LRMs)의 우수한 성능에도 불구하고, 그들의 추론 행동은 종종 직관에 반하여 최적 이하의 추론 능력을 초래한다.