[논문] LLM RL의 발산 정규화 재고
Source: arXiv - 2606.09821v1
개요
강화학습(RL)은 사후 훈련 대형 언어 모델(LLM)의 핵심 요소가 되었습니다. 실제로 LLM 강화학습은 학습‑추론 불일치와 정책의 오래됨(staleness) 때문에 오프‑폴리시인 경우가 많아, 신뢰 구역(trust‑region) 제어가 안정적인 최적화에 필수적입니다. PPO와 GRPO와 같은 주류 방법은 비율 클리핑 메커니즘으로 이 제어를 근사하지만, 중요도 비율은 긴 꼬리 어휘에서의 분포 이동을 제대로 대변하지 못합니다. 최근 연구인 DPPO는 비율 기반 클리핑을 발산 기반 마스크로 교체해, 샘플링된 토큰의 절대 확률 변화를 기준으로 신뢰 구역을 정의함으로써 이 불일치를 해결합니다. 그러나 DPPO는 여전히 하드 마스크에 의존합니다: 토큰이 해로운 방향으로 신뢰 구역 경계를 넘으면 그 그래디언트가 버려지고 교정되지 않습니다. 이를 해결하기 위해 우리는 **Divergence Regularized Policy Optimization (DRPO)**을 제안합니다. DRPO는 하드 마스크를 정책 변동에 대한 부드러운 advantage‑weighted 2차 정규화 항으로 대체합니다. DRPO는 DPPO와 동일한 신뢰 구역 기하학을 유지하면서, 발산하는 업데이트를 완화하고 경계 너머에서도 교정 신호를 제공하는 제한되고 연속적인 그래디언트 가중치를 생성합니다. 모델 규모, 아키텍처, 정밀도 설정을 아우르는 실험 결과, DRPO가 LLM 강화학습 훈련의 안정성과 효율성을 향상시킴을 보여줍니다.
핵심 기여
이 논문은 다음 분야의 연구를 제시합니다.
- cs.LG
방법론
자세한 방법론은 전체 논문을 참고하십시오.
실용적 함의
이 연구는 cs.LG 분야의 발전에 기여합니다.
저자
- Jiarui Yao
- Xiangxin Zhou
- Penghui Qi
- Wee Sun Lee
- Liefeng Bo
- Tianyu Pang
논문 정보
- arXiv ID: 2606.09821v1
- 분류: cs.LG
- 출판일: 2026년 6월 8일
- PDF: PDF 다운로드