[Paper] 왜 Diffusion Language Models는 진정한 병렬 (Non-Autoregressive) 디코딩에 어려움을 겪는가?

발행: 3일 전 (2026년 2월 27일 오전 02:04 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2602.23225v1

개요

Diffusion Language Models (DLMs)은 텍스트를 병렬적으로 생성하여 대부분의 최신 생성기에서 지배적인 느린 좌‑우(autoregressive) 병목 현상을 피할 수 있는 방법으로 주목받아 왔습니다. 그러나 실제로는 많은 빠른 DLM들이 여전히 일반적인 사전학습 코퍼스와 chain‑of‑thought (CoT) 데이터를 사용해 훈련될 때 autoregressive 모델처럼 행동하게 됩니다. 이 논문은 그 원인을 정확히 짚어내고, NAP (Non‑Autoregressive Parallel DLMs) 라는 데이터 중심의 해결책을 제안합니다. NAP는 훈련 데이터를 실제 병렬 디코딩에 더 잘 맞도록 재구성합니다.

주요 기여

AR‑유사 드리프트 진단: 확산 목표와 표준 언어 데이터(긴 CoT 예시 포함)의 고도로 순차적인 구조 사이의 불일치가 DLM을 좌‑우 디코딩으로 몰아넣는다는 점을 보여줍니다.
NAP 프레임워크: 독립적인 추론 궤적을 생성하고 이를 병렬‑강제 디코딩 스케줄과 짝짓는 간단하면서도 효과적인 데이터‑큐레이션 파이프라인을 도입하여 각 확산 단계에서 다중 토큰 업데이트를 장려합니다.
수학 추론에 대한 실증 검증: NAP‑학습된 DLM이 병렬 디코딩 시 여러 수학‑추론 벤치마크에서 기존 확산 모델을 능가함을 입증했으며, 병렬성 정도가 높아질수록 성능 향상이 커집니다.
오픈소스 공개: 재현성과 추가 연구를 위해 코드와 큐레이션된 데이터셋(https://github.com/pixeli99/NAP)을 제공합니다.

방법론

문제 정의: 확산 모델은 잠재 표현을 반복적으로 디노이징하여 시퀀스를 생성한다. 저자들은 학습 중 손실이 체인에서 다음 토큰을 예측하는 데 크게 좌우되며, 이는 암묵적으로 좌‑우 업데이트를 장려한다.
데이터 중심 재설계 (NAP):
- 궤적 추출: 기존 CoT 예시에서 긴 추론 체인을 여러 짧고 독립적인 하위 체인으로 나누어 각각 독립적으로 해결할 수 있게 한다.
- 병렬 강제 감독: 학습 시 모델에게 하위 체인의 전체 토큰을 한 번에 예측하도록 요구하고, 확산 스케줄을 조정해 여러 위치를 동시에 업데이트하는 더 큰 디노이징 단계를 적용한다.
학습 파이프라인: 이전 DLM과 동일한 확산 아키텍처를 사용하며, 감독 신호만 변경한다. 아키텍처 수정이나 추가 파라미터는 도입되지 않는다.
평가: 표준 확산 모델(원시 CoT 데이터로 학습)과 NAP‑학습 모델을 세 개의 수학 추론 데이터셋(예: GSM‑8K, MathQA)에서 비교한다. 디코딩은 2‑way, 4‑way, 8‑way 등 다양한 병렬 정도로 수행한다.

결과 및 발견

Model	Decoding mode	Accuracy (↑)	Speedup vs. AR
Baseline DLM (standard CoT)	Fully parallel (4‑way)	42.1 %	1.3×
NAP‑trained DLM	Fully parallel (4‑way)	48.7 %	1.8×
NAP‑trained DLM	Fully parallel (8‑way)	51.3 %	2.4×

성능 격차가 더 많은 병렬성으로 확대됩니다: 확산 단계당 업데이트되는 토큰 수가 증가함에 따라 NAP는 정확도를 유지하거나 향상시키는 반면, 베이스라인은 급격히 감소합니다.
지연 시간 감소: 단일 V100 GPU에서 8‑way 병렬 디코딩은 동일한 모델 크기의 좌‑우 디코딩에 비해 전체 지연 시간을 약 60 % 줄입니다.
정성적 분석: 샘플 생성 결과는 NAP의 병렬 경로가 AR‑형 확산 출력에서 흔히 나타나는 “계단” 효과 없이 일관된 다단계 추론을 생성함을 보여줍니다.

실용적 시사점

지연에 민감한 애플리케이션을 위한 빠른 추론: 챗봇, 코드 어시스턴트, 혹은 디바이스 내 언어 도구는 배치 연산에 강점이 있는 GPU나 특수 가속기에서 동기화 오버헤드가 감소함에 따라 이점을 얻을 수 있습니다.
하드웨어 활용도 향상: 병렬 디코딩은 최신 AI 칩의 SIMD/SME 실행 모델과 맞물려 모델 크기를 늘리지 않고도 높은 처리량을 달성합니다.
데이터 중심 엔지니어링: 이 연구는 모델 아키텍처를 재설계하기 전에, 실무자는 학습 데이터에 존재하는 순차적 편향을 점검해야 함을 시사합니다. 보다 독립적인 하위 작업을 포함하도록 데이터셋을 정제하거나 증강하면 기존 확산 파이프라인에서도 병렬성을 끌어낼 수 있습니다.
배포 간소화: NAP은 새로운 레이어나 추론 트릭을 필요로 하지 않으므로, 기존 확산 기반 생성 서비스는 큐레이션된 데이터셋을 교체하고 학습 스케줄만 조정하면 이 방식을 바로 적용할 수 있습니다.

제한 사항 및 향후 연구

수학적 추론에 한정된 범위: 실험은 구조화된 문제 해결 과제에 초점을 맞추고 있으며, NAP이 개방형 생성(예: 스토리텔링, 대화)에서 어떻게 작동하는지는 아직 명확하지 않다.
데이터 준비 오버헤드: 독립적인 추론 경로를 선별하는 작업은 자연스럽게 모듈화된 예제가 부족한 도메인에서는 노동 집약적일 수 있다. 자동 경로 추출은 아직 해결되지 않은 과제이다.
대규모 모델로의 확장: 본 연구는 중간 규모의 확산 모델을 사용했으며, 동일한 이득이 수십억 파라미터 규모의 대형 언어 모델에서도 유지되는지는 아직 검증되지 않았다.
향후 방향: 저자들은 점진적으로 병렬성을 증가시키는 커리큘럼 학습을 탐색하고, NAP을 다중모달 확산 모델과 통합하며, 원시 텍스트에서 병렬화 가능한 하위 구조를 발견하는 자기 지도 방법을 개발하는 것을 제안한다.

저자

Pengxiang Li
Dilxat Muhtar
Lu Yin
Tianlong Chen
Shiwei Liu

논문 정보

arXiv ID: 2602.23225v1
카테고리: cs.CL, cs.AI
출판일: 2026년 2월 26일
PDF: PDF 다운로드

[Paper] 왜 Diffusion Language Models는 진정한 병렬 (Non-Autoregressive) 디코딩에 어려움을 겪는가?

개요

주요 기여

방법론

결과 및 발견

실용적 시사점

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] LLM 초보자 향상 on Dual-Use, In Silico 생물학 과제

[Paper] SPARTA: 텍스트와 테이블을 위한 트리 구조 멀티홉 QA의 확장 가능하고 원칙 기반 벤치마크

[Paper] InnerQ: 하드웨어 인식 튜닝 프리 KV 캐시 양자화 for Large Language Models

[Paper] 앵커링을 통한 모델 합의