[논문] 다시 정상 궤도에: 확산 대형 언어 모델에서 추론을 위한 보상·상태 정렬
개요
강화 학습(RL)은 확산 대형 언어 모델(dLLM)의 추론 능력을 크게 향상시킬 잠재력을 가지고 있습니다. 그러나 실제 생성 궤적과 그래디언트 업데이트 과정 사이에 존재하는 두 가지 불일치 때문에 진전이 근본적으로 제한됩니다: (i) 프로세스-보상 불일치. 희소하고 최종 단계에만 주어지는 보상이 생성 과정의 모든 중간 단계에 무차별적으로 할당되어, 차별적인 크레딧 할당이 이루어지지 못합니다. (ii) 상태-궤적 불일치. 정책 업데이트가 종종 인위적이고 궤적 밖의 상태로 전향되어, 정보량이 적은 샘플에 그래디언트를 낭비합니다. 이러한 한계를 극복하기 위해 우리는 Process Aligned Policy Optimization (PAPO) 라는 새로운 프레임워크를 제안합니다. PAPO는 Step‑Aware Process Rewards (SPR) 를 통해 희소한 최종 보상을 밀집하고 단계별 크레딧으로 변환하고, Entropy‑Guided Historical Re‑enactment (EHR) 로 높은 불확실성 단계에서 실제 궤적을 재생함으로써 RL 업데이트를 dLLM의 생성 궤적에 전체적으로 정렬합니다. 네 개의 벤치마크에 대한 광범위한 실험 결과, PAPO가 기존 방법들을 크게 능가함을 확인했으며, GSM8K에서 최대 4.5%, MATH500에서 4.8%, Countdown에서 42.2%, Sudoku에서 16.1%의 향상을 달성했습니다.
주요 기여
이 논문은 다음 분야의 연구를 다룹니다:
- cs.CL
방법론
자세한 방법론은 전체 논문을 참고하십시오.
실용적 함의
본 연구는 cs.CL 분야의 발전에 기여합니다.
저자
- Yawen Shao
- Jie Xiao
- Kai Zhu
- Yu Liu
- Hongchen Luo
- Xueyang Fu
- Yang Cao
- Wei Zhai
- Zheng‑Jun Zha
논문 정보
- arXiv ID: 2606.08501v1
- 분류: cs.CL
- 발표일: 2026년 6월 7일
- PDF: PDF 다운로드