[Paper] 왜 Diffusion Language Models는 진정한 병렬 (Non-Autoregressive) 디코딩에 어려움을 겪는가?
발행: (2026년 2월 27일 오전 02:04 GMT+9)
9 분 소요
원문: arXiv
Source: arXiv - 2602.23225v1
개요
Diffusion Language Models (DLMs)은 텍스트를 병렬적으로 생성하여 대부분의 최신 생성기에서 지배적인 느린 좌‑우(autoregressive) 병목 현상을 피할 수 있는 방법으로 주목받아 왔습니다. 그러나 실제로는 많은 빠른 DLM들이 여전히 일반적인 사전학습 코퍼스와 chain‑of‑thought (CoT) 데이터를 사용해 훈련될 때 autoregressive 모델처럼 행동하게 됩니다. 이 논문은 그 원인을 정확히 짚어내고, NAP (Non‑Autoregressive Parallel DLMs) 라는 데이터 중심의 해결책을 제안합니다. NAP는 훈련 데이터를 실제 병렬 디코딩에 더 잘 맞도록 재구성합니다.
주요 기여
- AR‑유사 드리프트 진단: 확산 목표와 표준 언어 데이터(긴 CoT 예시 포함)의 고도로 순차적인 구조 사이의 불일치가 DLM을 좌‑우 디코딩으로 몰아넣는다는 점을 보여줍니다.
- NAP 프레임워크: 독립적인 추론 궤적을 생성하고 이를 병렬‑강제 디코딩 스케줄과 짝짓는 간단하면서도 효과적인 데이터‑큐레이션 파이프라인을 도입하여 각 확산 단계에서 다중 토큰 업데이트를 장려합니다.
- 수학 추론에 대한 실증 검증: NAP‑학습된 DLM이 병렬 디코딩 시 여러 수학‑추론 벤치마크에서 기존 확산 모델을 능가함을 입증했으며, 병렬성 정도가 높아질수록 성능 향상이 커집니다.
- 오픈소스 공개: 재현성과 추가 연구를 위해 코드와 큐레이션된 데이터셋(https://github.com/pixeli99/NAP)을 제공합니다.
방법론
- 문제 정의: 확산 모델은 잠재 표현을 반복적으로 디노이징하여 시퀀스를 생성한다. 저자들은 학습 중 손실이 체인에서 다음 토큰을 예측하는 데 크게 좌우되며, 이는 암묵적으로 좌‑우 업데이트를 장려한다.
- 데이터 중심 재설계 (NAP):
- 궤적 추출: 기존 CoT 예시에서 긴 추론 체인을 여러 짧고 독립적인 하위 체인으로 나누어 각각 독립적으로 해결할 수 있게 한다.
- 병렬 강제 감독: 학습 시 모델에게 하위 체인의 전체 토큰을 한 번에 예측하도록 요구하고, 확산 스케줄을 조정해 여러 위치를 동시에 업데이트하는 더 큰 디노이징 단계를 적용한다.
- 학습 파이프라인: 이전 DLM과 동일한 확산 아키텍처를 사용하며, 감독 신호만 변경한다. 아키텍처 수정이나 추가 파라미터는 도입되지 않는다.
- 평가: 표준 확산 모델(원시 CoT 데이터로 학습)과 NAP‑학습 모델을 세 개의 수학 추론 데이터셋(예: GSM‑8K, MathQA)에서 비교한다. 디코딩은 2‑way, 4‑way, 8‑way 등 다양한 병렬 정도로 수행한다.
결과 및 발견
| Model | Decoding mode | Accuracy (↑) | Speedup vs. AR |
|---|---|---|---|
| Baseline DLM (standard CoT) | Fully parallel (4‑way) | 42.1 % | 1.3× |
| NAP‑trained DLM | Fully parallel (4‑way) | 48.7 % | 1.8× |
| NAP‑trained DLM | Fully parallel (8‑way) | 51.3 % | 2.4× |
- 성능 격차가 더 많은 병렬성으로 확대됩니다: 확산 단계당 업데이트되는 토큰 수가 증가함에 따라 NAP는 정확도를 유지하거나 향상시키는 반면, 베이스라인은 급격히 감소합니다.
- 지연 시간 감소: 단일 V100 GPU에서 8‑way 병렬 디코딩은 동일한 모델 크기의 좌‑우 디코딩에 비해 전체 지연 시간을 약 60 % 줄입니다.
- 정성적 분석: 샘플 생성 결과는 NAP의 병렬 경로가 AR‑형 확산 출력에서 흔히 나타나는 “계단” 효과 없이 일관된 다단계 추론을 생성함을 보여줍니다.
실용적 시사점
- 지연에 민감한 애플리케이션을 위한 빠른 추론: 챗봇, 코드 어시스턴트, 혹은 디바이스 내 언어 도구는 배치 연산에 강점이 있는 GPU나 특수 가속기에서 동기화 오버헤드가 감소함에 따라 이점을 얻을 수 있습니다.
- 하드웨어 활용도 향상: 병렬 디코딩은 최신 AI 칩의 SIMD/SME 실행 모델과 맞물려 모델 크기를 늘리지 않고도 높은 처리량을 달성합니다.
- 데이터 중심 엔지니어링: 이 연구는 모델 아키텍처를 재설계하기 전에, 실무자는 학습 데이터에 존재하는 순차적 편향을 점검해야 함을 시사합니다. 보다 독립적인 하위 작업을 포함하도록 데이터셋을 정제하거나 증강하면 기존 확산 파이프라인에서도 병렬성을 끌어낼 수 있습니다.
- 배포 간소화: NAP은 새로운 레이어나 추론 트릭을 필요로 하지 않으므로, 기존 확산 기반 생성 서비스는 큐레이션된 데이터셋을 교체하고 학습 스케줄만 조정하면 이 방식을 바로 적용할 수 있습니다.
제한 사항 및 향후 연구
- 수학적 추론에 한정된 범위: 실험은 구조화된 문제 해결 과제에 초점을 맞추고 있으며, NAP이 개방형 생성(예: 스토리텔링, 대화)에서 어떻게 작동하는지는 아직 명확하지 않다.
- 데이터 준비 오버헤드: 독립적인 추론 경로를 선별하는 작업은 자연스럽게 모듈화된 예제가 부족한 도메인에서는 노동 집약적일 수 있다. 자동 경로 추출은 아직 해결되지 않은 과제이다.
- 대규모 모델로의 확장: 본 연구는 중간 규모의 확산 모델을 사용했으며, 동일한 이득이 수십억 파라미터 규모의 대형 언어 모델에서도 유지되는지는 아직 검증되지 않았다.
- 향후 방향: 저자들은 점진적으로 병렬성을 증가시키는 커리큘럼 학습을 탐색하고, NAP을 다중모달 확산 모델과 통합하며, 원시 텍스트에서 병렬화 가능한 하위 구조를 발견하는 자기 지도 방법을 개발하는 것을 제안한다.
저자
- Pengxiang Li
- Dilxat Muhtar
- Lu Yin
- Tianlong Chen
- Shiwei Liu
논문 정보
- arXiv ID: 2602.23225v1
- 카테고리: cs.CL, cs.AI
- 출판일: 2026년 2월 26일
- PDF: PDF 다운로드