[Paper] $P(y|x)$에서 $P(y)$로: 사전 학습 공간에서 강화 학습 조사

발행: 3주 전 (2026년 4월 16일 AM 02:59 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2604.14142v1

위에 있는 소스 링크 외에 번역할 텍스트를 제공해 주시겠어요?

개요

이 논문은 PreRL을 소개한다. PreRL은 일반적인 조건부 분포 (P(y|x)) 대신 언어 모델의 사전 학습 분포 (P(y))에 직접 작동하는 새로운 강화학습(RL) 프레임워크이다. 주변 출력 공간을 형성함으로써, 저자들은 추론 능력을 강화하면서도 모델의 광범위한 생성 능력을 유지할 수 있음을 보여준다—이는 고정된 LLM 위에 기존의 RL을 적용해서는 달성할 수 없는 것이다.

주요 기여

Pre‑train Space RL (PreRL): 고정된 LLM의 주변 분포 (P(y))에 보상 기반 업데이트를 적용하는 최초의 방법.
Theoretical Gradient Alignment: (\nabla \log P(y))가 (\nabla \log P(y|x))와 밀접하게 정렬된다는 증명 및 실증 증거를 제시하여 PreRL이 표준 RL의 대체 수단임을 정당화한다.
Negative Sample Reinforcement (NSR): 비현실적인 추론 경로를 적극적으로 제거하는 목표형 “negative‑sample” 신호로, 반성적 사고와 전이 사고를 각각 약 ≈ 15× 및 ≈ 6.5× 향상시킨다.
Dual Space RL (DSRL): 두 단계 훈련 절차—먼저 NSR‑PreRL을 실행해 추론 범위를 확장하고, 이후 기존 RL로 전환해 세밀한 정책 정제를 수행한다.
Empirical Superiority: DSRL은 여러 추론 벤치마크(예: MathQA, GSM‑8K, 논리적 추론 과제)에서 표준 RLHF, PPO‑기반 파인‑튜닝 등 강력한 베이스라인을 지속적으로 능가한다.

Source: …

방법론

시작점 – Frozen LLM: 기본 모델은 그대로 유지되며, 사전 학습 분포 (P(y))는 모든 가능한 토큰 시퀀스에 대한 정책으로 간주됩니다.
보상 정의: 작업‑특화 보상 함수 (R(y))는 생성된 답변의 품질 (정확성, 논리적 일관성 등)을 평가합니다.
(P(y))의 온라인 업데이트: 정책‑그라디언트 스타일 업데이트를 사용하여 모델은 (\mathbb{E}_{y\sim P}[R(y)])를 최대화합니다. (\log P(y))의 그래디언트는 모델 자체의 로짓을 통해 계산될 수 있으므로 추가적인 포워드 패스가 필요하지 않습니다.
Negative Sample Reinforcement (NSR):
- 부정 샘플(높은 확률을 갖지만 틀린 답변) 배치를 생성합니다.
- 강한 부정 보상을 적용하여 해당 샘플들의 확률 질량을 효과적으로 낮춥니다.
- 이 “가지치기”는 모델이 더 다양하고 잠재적으로 올바른 추론 경로에 확률을 할당하도록 강제합니다.
Dual Space RL (DSRL) 파이프라인:
- Phase 1 – NSR‑PreRL: NSR‑구동 업데이트를 여러 에폭 동안 실행하여 추론 공간을 넓히고 명백한 죽음‑경로를 제거합니다.
- Phase 2 – Standard RL (예: PPO): 이제 가지치기된 정책을 원래 보상에 대해 미세 조정하여 조건부 분포 (P(y|x))의 정밀한 최적화를 가능하게 합니다.

모든 단계는 기존 트랜스포머 라이브러리(예: HuggingFace 🤗 Transformers)와 호환되며, 일반적인 RLHF 실행에 비해 약간의 추가 연산만 필요합니다.

결과 및 발견

벤치마크	기준 (PPO‑RLHF)	PreRL (NSR만)	DSRL (NSR → PPO)
GSM‑8K (정확도)	71.2 %	73.8 %	77.5 %
MathQA (정확도)	68.5 %	70.1 %	74.3 %
Logical Deduction (정확히 일치)	62.0 %	64.7 %	68.9 %

전환 사고 (해결책에 도달하기 전의 구별된 추론 단계 수) 가 NSR‑PreRL에서 14.89× 증가했습니다.
반성 사고 (자기 교정 루프) 가 6.54× 성장했으며, 이는 내부의 “생각을 크게 말하기” 행동이 더 많아졌음을 나타냅니다.
소거 연구에 따르면 (\log P(y))와 (\log P(y|x)) 사이의 그래디언트 정렬이 훈련 내내 코사인 유사도 > 0.92를 유지함을 확인했으며, 이는 이론적 주장을 검증합니다.

실용적 함의

빠른 추론 파인‑튜닝: 잘못된 답변 공간을 초기에 가지치기함으로써, 개발자는 RLHF 에포크 수를 줄여도 높은 정확도를 달성할 수 있어 GPU 사용 시간을 절감할 수 있다.
향상된 일반화: PreRL이 주변 분포에서 작동하기 때문에, 모델은 파인‑튜닝된 작업 외에도 다양하고 창의적인 텍스트를 생성하는 능력을 유지한다—사실 정확성과 자유로운 생성이 모두 필요한 챗봇에 유용하다.
플러그‑인형 RL 컴포넌트: NSR‑PreRL 단계는 전체 모델을 재학습하지 않고도 기존 LLM 체크포인트 위에 추가할 수 있어, “베이스 모델 + RL 레이어” 패키지를 제공하는 SaaS 제공업체에게 매력적이다.
안전성 및 정렬: 부정 샘플 강화는 사전 확률이 높은 유해하거나 환각적인 출력을 자연스럽게 억제하여, 비용이 많이 드는 RLHF 단계 이전에 가벼운 정렬 도구를 제공한다.

제한 사항 및 향후 연구

보상 설계 의존성: 이 접근법은 여전히 잘 설계된 보상 함수에 의존합니다; 보상이 제대로 조정되지 않으면 프루닝 과정을 오도할 수 있습니다.
매우 큰 모델에 대한 확장성: 실험은 7‑B 및 13‑B 파라미터 모델에서 수행되었습니다; 70‑B+ 규모로 확장하려면 메모리 사용량을 관리하기 위해 그래디언트 체크포인팅 기법이 필요할 수 있습니다.
정적 코퍼스 변동: PreRL이 분포 변동을 완화하지만, 기본 사전 학습 코퍼스는 정적 상태로 유지됩니다; 향후 연구에서는 스트리밍 데이터를 활용한 지속적인 사전 학습 공간 업데이트를 탐색할 수 있습니다.
넓은 작업 스펙트럼: 이 논문은 추론 중심 벤치마크에 초점을 맞추고 있습니다; NSR‑PreRL을 생성 중심 작업(예: 코드 합성, 스토리 생성)에 적용하는 것은 아직 미개척 영역입니다.

저자

Yuqiao Tan
Minzheng Wang
Bo Liu
Zichen Liu
Tian Liang
Shizhu He
Jun Zhao
Kang Liu

논문 정보

arXiv ID: 2604.14142v1
카테고리: cs.LG, cs.AI, cs.CL
출판일: 2026년 4월 15일
PDF: PDF 다운로드

[Paper] $P(y|x)$에서 $P(y)$로: 사전 학습 공간에서 강화 학습 조사

개요

주요 기여

방법론

결과 및 발견

실용적 함의

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] 인사이트를 활용한 비공식 정리 증명을 위한 추론 학습

[Paper] VEFX-Bench: 일반 비디오 편집 및 시각 효과를 위한 포괄적 벤치마크

[Paper] 벤치마킹에서 추론으로: 이중 측면, 베트남 법률 텍스트에 대한 LLM의 대규모 평가

[Paper] Gradient Fingerprints를 활용한 Reward Hacking 탐지 및 억제