[논문] 다시 정상 궤도에: 확산 대형 언어 모델에서 추론을 위한 보상·상태 정렬

발행: 3일 전 (2026년 6월 7일 PM 04:59 GMT+9)

3 분 소요

원문: arXiv

출처: arXiv - 2606.08501v1

개요

강화 학습(RL)은 확산 대형 언어 모델(dLLM)의 추론 능력을 크게 향상시킬 잠재력을 가지고 있습니다. 그러나 실제 생성 궤적과 그래디언트 업데이트 과정 사이에 존재하는 두 가지 불일치 때문에 진전이 근본적으로 제한됩니다: (i) 프로세스-보상 불일치. 희소하고 최종 단계에만 주어지는 보상이 생성 과정의 모든 중간 단계에 무차별적으로 할당되어, 차별적인 크레딧 할당이 이루어지지 못합니다. (ii) 상태-궤적 불일치. 정책 업데이트가 종종 인위적이고 궤적 밖의 상태로 전향되어, 정보량이 적은 샘플에 그래디언트를 낭비합니다. 이러한 한계를 극복하기 위해 우리는 Process Aligned Policy Optimization (PAPO) 라는 새로운 프레임워크를 제안합니다. PAPO는 Step‑Aware Process Rewards (SPR) 를 통해 희소한 최종 보상을 밀집하고 단계별 크레딧으로 변환하고, Entropy‑Guided Historical Re‑enactment (EHR) 로 높은 불확실성 단계에서 실제 궤적을 재생함으로써 RL 업데이트를 dLLM의 생성 궤적에 전체적으로 정렬합니다. 네 개의 벤치마크에 대한 광범위한 실험 결과, PAPO가 기존 방법들을 크게 능가함을 확인했으며, GSM8K에서 최대 4.5%, MATH500에서 4.8%, Countdown에서 42.2%, Sudoku에서 16.1%의 향상을 달성했습니다.

주요 기여

이 논문은 다음 분야의 연구를 다룹니다:

cs.CL

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

본 연구는 cs.CL 분야의 발전에 기여합니다.

저자

Yawen Shao
Jie Xiao
Kai Zhu
Yu Liu
Hongchen Luo
Xueyang Fu
Yang Cao
Wei Zhai
Zheng‑Jun Zha

논문 정보

arXiv ID: 2606.08501v1
분류: cs.CL
발표일: 2026년 6월 7일
PDF: PDF 다운로드

[논문] 다시 정상 궤도에: 확산 대형 언어 모델에서 추론을 위한 보상·상태 정렬

개요

주요 기여

방법론

실용적 함의

저자

논문 정보

관련 글

[논문] 추론이 정렬을 유지할까? 대규모 추론 모델의 신뢰성에 대하여

[논문] AuRA: 오디오 이해를 LoRA 방식으로 LLM에 내재화

[논문] 순차 추천을 위한 생성적 전형 기반 아이템 표현

[논문] 소셜 미디어 텍스트에서 인간 가치 표현 측정: 보정된 LLM 주석 및 인코더 전이