[논문] 완전 무작위 마스킹을 넘어: 어텐션 기반 디노이징 및 최적화, 확산 언어 모델을 위한.
개요
확산 대형 언어 모델(dLLM)은 병렬 디코딩을 통해 자기회귀 모델에 대한 효율적인 대안을 제공하지만, 기존 사후 학습 방법은 대부분 무작위 마스킹 전략에 의존해 토큰 간 내재된 의존성을 간과한다. 본 연구에서는 dLLM의 어텐션을 실증적으로 분석하고, 마스크되지 않은 컨텍스트에 더 강하게 어텐션을 두는 토큰이 생성 안정성이 높으며 추론에 중요한 역할을 함을 보였다. 이러한 발견에 고무되어 우리는 어텐션 기반 디노이징 및 최적화 프레임워크인 AGDO를 제안한다. AGDO는 어텐션 구조에 따라 디노이징 순서를 결정하고, 감독 미세조정 및 강화학습 과정에서 어텐션에 중요한 토큰을 강조한다. 수학 및 코딩 벤치마크 실험 결과, AGDO는 추론 성능을 지속적으로 향상시켜 dLLM을 위한 최첨단 사후 학습 방법들을 능가한다.
주요 기여
이 논문은 다음 분야의 연구를 제시한다:
- cs.CL
방법론
자세한 방법론은 전체 논문을 참고하시기 바랍니다.
실용적 함의
본 연구는 cs.CL 분야의 발전에 기여한다.
저자
- Jia Deng
- Junyi Li
- Wayne Xin Zhao
- Jinpeng Wang
- Hongyu Lu
- Ji‑Rong Wen
논문 정보
- arXiv ID: 2606.12273v1
- Categories: cs.CL
- Published: 2026년 6월 10일
- PDF: PDF 다운로드