[Paper] GDPO: 다중 보상 RL 최적화를 위한 그룹 보상-분리 정규화 정책 최적화
Source: arXiv - 2601.05242v1
개요
이 논문은 **GDPO (Group reward‑Decoupled Normalization Policy Optimization)**를 소개한다. 이는 대규모 언어 모델(LLM)이 동시에 여러 인간 정렬된 선호도(예: 정확성, 형식, 안전)를 만족시켜야 할 때 설계된 새로운 강화학습(RL) 알고리즘이다. 저자들은 일반적으로 사용되는 Group Relative Policy Optimization(GRPO)이 정규화 과정에서 서로 다른 보상 신호를 합쳐버려 학습 안정성과 최종 성능을 저하시킨다는 것을 보여준다. GDPO는 각 보상을 독립적으로 정규화함으로써 상대적 크기를 유지하고, 보다 신뢰할 수 있는 다중 보상 학습을 가능하게 한다.
주요 기여
- 문제 진단: GRPO의 공유 정규화가 서로 다른 보상 스트림을 동일한 어드밴티지로 수렴하게 하여 학습 신호를 약화시킨다는 것을 분석적·실증적으로 보여준다.
- GDPO 알고리즘: 간단하면서도 효과적인 수정—보상별 분리 정규화—을 제안하며, 그룹별 정책 업데이트의 핵심 이점을 유지한다.
- 포괄적 평가: correctness (정확도, 버그 비율)와 constraint (형식, 길이) 메트릭을 모두 사용하여 세 가지 다양한 LLM 작업(툴 호출, 수학 추론, 코딩 추론)에서 GDPO를 GRPO와 비교한다.
- 안정성 향상: 손실 곡선이 현저히 부드러워지고 초기 학습 충돌이 감소함을 보여주며, 대규모 RL 파이프라인의 견고성이 향상되었음을 나타낸다.
- 오픈소스 가능성: 이 방법은 기존 RL‑HF(인간 피드백을 통한 강화 학습) 스택과 호환되며, 어드밴티지 정규화 단계만 변경하면 된다.
Methodology
-
Multi‑Reward Setup:
- 각 학습 예시는 스칼라 보상 벡터 (r = (r_1, r_2, \dots, r_K)) (예: 사실 정확성, 응답 길이, JSON 형식)를 받습니다.
- 전체 advantage는 전통적으로 이 보상들을 집계한 뒤 배치 전체에 단일 정규화를 적용하여 계산합니다 (GRPO).
-
Problem with Shared Normalization:
- 보상의 스케일이나 분포가 다를 때, 공유 평균‑분산 정규화는 차이를 압축시켜 결과적인 advantage 값이 그룹 간에 거의 동일하게 됩니다.
- 이러한 “advantage collapse”는 어느 보상이 우선시되어야 하는지를 구분하는 그래디언트의 능력을 감소시킵니다.
-
GDPO’s Decoupled Normalization:
- 배치 전체에 대해 각 보상 차원 (k)마다 별도의 평균 (\mu_k)와 표준편차 (\sigma_k)를 계산합니다.
- 각 advantage 구성 요소를 독립적으로 정규화합니다: (\hat{A}_k = (A_k - \mu_k) / \sigma_k).
- 정규화된 구성 요소들을 (예: 가중합) 결합하여 정책‑그라디언트 업데이트에 사용되는 최종 advantage를 얻습니다.
-
Training Loop:
- 나머지 RL 파이프라인 (trajectory 수집, KL‑penalty, PPO‑style clipping)은 변경되지 않으며, GDPO는 기존 코드베이스에서 GRPO를 대체하는 drop‑in 방식으로 사용할 수 있습니다.
Results & Findings
| 작업 | 지표 | GRPO | GDPO |
|---|---|---|---|
| Tool Calling | 정확도 (Acc.) | 71.2 % | 78.9 % |
| 형식 준수 | 64.5 % | 73.1 % | |
| Math Reasoning | 정확도 | 58.3 % | 66.7 % |
| 길이 제한 | 61.0 % | 69.4 % | |
| Coding Reasoning | 버그 없음 비율 | 45.8 % | 53.2 % |
| JSON 형식 | 52.1 % | 60.5 % |
- 학습 안정성: GDPO의 손실 곡선은 스파이크가 훨씬 적고 거의 발산하지 않으며, 반면 GRPO는 특히 코딩 작업에서 초기 학습 중에 가끔 충돌이 발생합니다.
- 일반화 가능성: 성능 향상이 보상 구조가 매우 다른 작업들에서도 유지되어, 해당 방법이 특정 작업에 국한되지 않음을 시사합니다.
- 소거 실험: 보상별 정규화를 제거하고(즉, 공유 정규화로 되돌림) GRPO 성능 저하가 재현되어, 핵심 가설을 확인합니다.
실용적인 시사점
- LLM을 위한 더 나은 다목표 RL: 챗봇, 코드 어시스턴트, 혹은 형식 제약(JSON API 등)을 준수해야 하는 에이전트를 구축하는 개발자는 보상 설계를 새로 하지 않아도 더 높은 충실도를 달성할 수 있다.
- 플러그‑인 업그레이드: GDPO는 advantage‑normalization 단계만 변경하므로, 몇 줄의 코드만으로 인기 있는 RL‑HF 라이브러리(e.g.,
trl,trlx)에 통합할 수 있다. - 훈련 비용 감소: 더 안정적인 그래디언트는 재시작 횟수를 줄이고 GPU 사용 시간을 절감한다. 이는 특히 대규모 모델(70B 이상)에서 가치가 크다.
- 안전성 및 정렬 개선: 안전 관련 보상(독성, 편향)과 유틸리티 보상의 구별된 신호를 유지함으로써, GDPO는 성능을 최적화하면서 정렬 보장을 유지하는 데 도움을 준다.
- 자동 보상 가중치 부여 가능성: 각 보상이 자체 스케일을 유지하므로, 최적 가중치를 학습하는 하위 방법(예: 메타‑러닝)이 보다 신뢰성 있게 작동할 수 있다.
제한 사항 및 향후 연구
- 보상 개수의 확장성: 논문에서는 최대 세 개의 보상 차원을 평가했으며, 매우 고차원 보상 벡터는 새로운 정규화 문제(예: 보상 간 공분산)를 야기할 수 있습니다.
- 가중치 선택: GDPO는 여전히 정규화된 이점에 대한 수동 가중이 필요하며, 이러한 가중치를 자동으로 학습하는 것은 아직 해결되지 않은 문제입니다.
- 이론적 보장: 실험 결과는 강력하지만, 다중 보상 설정에서 분리된 정규화에 대한 공식적인 수렴 분석은 제공되지 않았습니다.
- 더 넓은 벤치마크: 향후 연구에서는 보상 정의가 보다 주관적인 오픈 엔드 생성 작업(예: 스토리 작성)에서 GDPO를 테스트할 수 있습니다.
핵심 요약: GDPO는 다중이면서도 상충될 수 있는 보상 신호를 가진 LLM을 훈련하는 모든 사람에게 낮은 오버헤드와 높은 효과를 제공하여 다목적 강화학습을 보다 안정적이고 효과적으로 만듭니다.
저자
- Shih‑Yang Liu
- Xin Dong
- Ximing Lu
- Shizhe Diao
- Peter Belcak
- Mingjie Liu
- Min‑Hung Chen
- Hongxu Yin
- Yu‑Chiang Frank Wang
- Kwang‑Ting Cheng
- Yejin Choi
- Jan Kautz
- Pavlo Molchanov
논문 정보
- arXiv ID: 2601.05242v1
- Categories: cs.CL, cs.AI, cs.LG
- Published: 2026년 1월 8일
- PDF: PDF 다운로드