[Paper] Negative Rollouts를 넘어: Implicit Negative Gradients를 이용한 Positive-Only Policy Optimization
Source: arXiv - 2605.06650v1
개요
이 논문은 추론 작업에 대한 대형 언어 모델(LLM)을 미세 조정하기 위한 새로운 강화 학습‑검증 가능한 보상(RLVR) 기법인 Positive‑Only Policy Optimization (POPO) 를 소개합니다. 부정적인 롤아웃을 완전히 배제하고 “좋은” 샘플만을 활용함으로써, POPO는 훈련 루프를 단순화하면서도 현재 최첨단인 Group Relative Policy Optimization (GRPO)과 동등하거나 그 이상의 성능을 제공합니다.
주요 기여
- Positive‑only learning framework – 명시적인 negative rollout이 필요 없으며, 성공적인 trajectory 집합에 대한 제한된 중요도 샘플링을 사용합니다.
- Implicit negative gradients – 부정적인 행동에 대한 패널티가 긍정적인 확률을 강화함으로써 자연스럽게 나타날 수 있음을 보여주며, 별도의 손실 항이 필요하지 않게 합니다.
- Siamese policy network with momentum adaptation – 정책의 느리게 움직이는 복사본을 유지하고 이를 공유 표현 공간에서 정렬함으로써 정책 업데이트를 안정화합니다.
- Bounded similarity penalty – 기존의 KL‑divergence를 직접 siamese 임베딩에 적용 가능한 계산 가능한 유사도 항으로 대체합니다.
- Empirical validation on math benchmarks – POPO는 Qwen‑Math‑7B를 사용해 AIME 2025 테스트 세트에서 36.67 %를 달성했으며, GRPO의 30 %를 능가하고 다른 난이도 수준에서도 동일한 결과를 보였습니다.
- Extensive ablations – 각 구성 요소(중요도 샘플링 경계, siamese 아키텍처, 모멘텀 업데이트)가 견고성 및 최종 정확도에 기여함을 확인합니다.
방법론
- Rollout 수집 – 각 학습 반복에서 정책은 일련의 완성을 생성합니다. 결정적 검증기(예: 수학 문제에 대한 정답)를 만족하는 경우만 양성 rollout으로 유지됩니다.
- 제한된 중요도 샘플링 – 현재 정책 하에서 각 양성 rollout의 확률을 상한이 있는 중요도 샘플링 비율로 재가중치하여, 극단적인 분산을 방지하면서도 분포 이동을 보정합니다.
- Siamese 아키텍처 – 정책 네트워크의 두 복사본을 유지합니다: 업데이트되는 온라인 정책과 모멘텀 규칙(θ_target ← τ·θ_target + (1‑τ)·θ_online)으로 천천히 진화하는 타깃 정책. 두 네트워크는 동일한 인코더를 공유하지만 별도의 헤드를 가집니다.
- 유사도 페널티 – KL‑발산 대신, 온라인과 타깃 임베딩 사이의 제한된 거리(예: 최대값으로 클리핑된 코사인 유사도)를 손실에 추가하여 정책 변화가 부드럽게 이루어지도록 합니다.
- 최적화 – 최종 손실은 (양성 전용) 정책‑그라디언트 항과 유사도 페널티를 결합합니다. 경사 하강법으로 온라인 정책을 업데이트하고, 타깃 정책은 모멘텀에 의해 자동으로 따라갑니다.
핵심 통찰은 성공적인 행동의 확률을 증강함으로써, 알고리즘이 보이지 않거나 실패한 행동의 확률을 간접적으로 낮추어, 실제로 해당 행동을 샘플링하지 않으면서도 명시적인 부정 그라디언트와 유사한 효과를 얻는다는 점입니다.
결과 및 발견
| Model (7B) | Benchmark | GRPO (%) | POPO (%) |
|---|---|---|---|
| Qwen‑Math | AIME 2025 | 30.00 | 36.67 |
| Qwen‑Math | AIME 2024 | 28.4 | 29.1 |
| Qwen‑Math | AIME 2023 | 27.9 | 27.9 |
- 모든 난이도 단계에서 비교 가능하거나 우수한 성능을 보이며, 가장 어려운 시험(AIME 2025)에서 가장 큰 향상을 기록했습니다.
- 안정성 – 시암즈‑모멘텀 + 유사도 페널티를 사용할 때 훈련 곡선이 진동이 적고 분산이 낮아졌으며, 이는 기존 PPO/GRPO와 비교됩니다.
- 소거 실험 – 중요도 샘플링 경계 또는 유사도 페널티를 제거하면 성능이 약 4–5 pp 감소하여 이들의 필요성을 확인했습니다.
- 샘플 효율성 – POPO는 집중된 긍정 롤아웃 세트 덕분에 GRPO보다 약 20 % 적은 환경 상호작용으로 최고 성능에 도달합니다.
실용적 함의
- 간단한 파이프라인 – 부정 샘플에 대한 어드밴티지 추정기를 설계하거나 튜닝할 필요가 없으며, 개발자는 최소한의 변경으로 기존 RLHF‑스타일 파인튜닝 스크립트에 POPO를 삽입할 수 있습니다.
- 컴퓨팅 낭비 감소 – 부정 롤아웃을 조기에 버림으로써 GPU 사이클이 실제 학습에 기여하는 궤적에만 사용되어 대규모 LLM의 훈련 비용을 낮춥니다.
- 희소 이진 보상의 더 나은 처리 – 성공이 드문 작업(예: 형식 증명 생성, 코드 합성)은 양성 전용 편향의 혜택을 받아 희소한 부정 샘플에서 발생하는 “신호 희석” 문제를 피할 수 있습니다.
- 보다 안전한 정책 업데이트 – 표현 공간에서의 유사도 페널티는 KL보다 더 해석 가능하고 제한된 정책 변동 개념을 제공하여 규정 준수 중심 배포에 유용합니다.
- 다른 분야에 대한 잠재력 – 동일한 아이디어를 로봇공학, 게임 AI 등 RL에 적용하거나, 결정론적 검증기가 성공을 라벨링할 수 있는 모든 상황(예: 코드 생성에 대한 단위 테스트)에도 적용할 수 있습니다.
제한 사항 및 향후 연구
- 완벽한 검증자에 대한 의존 – POPO는 결정적이고 잡음 없는 보상 신호를 가정한다; 잡음이 있거나 확률적인 검증은 편향을 다시 도입할 수 있다.
- 제한된 탐색 – 긍정적인 사례에만 집중함으로써 초기에는 최적이 아닌 것으로 보이는 새로운 전략을 놓칠 수 있다; 가끔 부정적인 샘플을 포함하는 혼합 방식이 이를 완화할 수 있다.
- 다중 모달 작업에 대한 확장성 – 현재 실험은 텍스트 기반 수학 추론에만 국한되어 있다; 시각‑언어 혹은 인터랙티브 환경으로 확장하는 것은 아직 미해결 과제이다.
- 이론적 보장 – 실험 결과는 강력하지만, 암시적 부정 기울기 메커니즘에 대한 형식적인 수렴 증명은 아직 제공되지 않았다.
향후 연구 방향으로는 불확실성을 고려한 검증자를 통합하고, POPO를 커리큘럼 학습과 결합하여 탐색 범위를 넓히며, Qwen 계열을 넘어 대규모 지시 수행 모델에 프레임워크를 테스트하는 것이 포함된다.
저자
- Mingwei Xu
- Hao Fang
논문 정보
- arXiv ID: 2605.06650v1
- 카테고리: cs.CL
- 출판일: 2026년 5월 7일
- PDF: PDF 다운로드