[논문] D^2SD: 이중 확산 초안 모델로 추측 디코딩 가속화
개요
논문 **“D²SD: Dual Diffusion Draft Models를 활용한 Speculative Decoding 가속화”**는 대형 언어 모델(LLM) 배포 시 가장 큰 병목 중 하나인 자동회귀 추론 지연을 해결한다. diffusion 기반 초안 생성과 두 단계 검증 전략을 결합함으로써, 저자들은 speculative decoding의 토큰 처리량을 크게 높이면서 최종 출력 품질을 유지한다.
주요 기여
- 이중 diffusion 초안 프레임워크: 단일 선형 초안이 아니라 여러 후보 연속성을 병렬로 생성하는 두 단계 diffusion 초안 프로세스를 도입한다.
- 신뢰도 기반 접두사 트리: 첫 번째 diffusion 초안기로부터 얻은 위치별 신뢰도 점수를 이용해 접두사 트리를 구축하고, 가장 가능성이 높은 거부 지점을 자동으로 찾아 상위 K개의 유망한 접두사 구간을 선택한다.
- 가변 접두사 재앵커링: 두 번째 diffusion 초안기가 선택된 각 접두사에 대해 대체 연속성을 재생성하며, 이를 단일 배치 연산으로 수행해 초안 토큰의 수용률을 크게 높인다.
- 계단식 어텐션 검증: 공유 접두사를 가진 모든 후보를 목표 모델의 한 번의 포워드 패스로 공동 검증함으로써 검증 오버헤드를 감소시킨다.
- 실험적 성과: 다양한 LLM 규모와 벤치마크 데이터셋에서 기존 diffusion speculative decoder와 강력한 자동회귀 speculative decoding 베이스라인보다 일관된 속도 향상을 입증한다.
방법론
-
첫 번째 Diffusion 초안
- diffusion 모델이 N 토큰 블록을 병렬로 생성한다.
- 각 위치마다 해당 토큰이 목표 LLM에 의해 수용될 확률을 나타내는 신뢰도 점수를 함께 출력한다.
-
접두사 트리 구성
- 신뢰도 점수를 스캔하여 가장 가능성이 높은 거부 경계—즉 초안이 실제 분포와 갈라질 가능성이 높은 지점을 찾는다.
- 트리는 가장 높은 정확도가 기대되는 상위 K개의 접두사 구간(예: 토큰 1‑3, 1‑5, 1‑7)을 유지한다.
-
두 번째 가변 접두사 Diffusion 초안
- 선택된 각 접두사에 대해 두 번째 diffusion 모델이 해당 접두사에서 “재앵커링”하고, 이후 부분이 다른 대체 연속성을 생성한다.
- 모든 대체 후보는 하나의 배치 diffusion 패스로 동시에 생성되어 GPU 활용도를 높인다.
-
계단식 어텐션 검증
- 목표 자동회귀 LLM이 공유 접두사를 가진 후보 연속성 집합을 받는다.
- 계단식 어텐션을 이용해 후보들을 동시에 평가하고, 목표 모델의 예측과 일치하는 가장 긴 접두사를 수용하고 나머지는 폐기한다.
-
반복 루프
- 수용된 토큰 수만큼 윈도우를 앞으로 이동시키며 과정을 반복하고, 원하는 출력 길이에 도달할 때까지 진행한다.
결과 및 분석
| 모델 / 설정 | 초당 토큰 수 (TPS) | 수용률 | 베이스라인 대비 속도 향상 |
|---|---|---|---|
| 표준 자동회귀 디코딩 | 45 | — | 1× |
| 단일 diffusion speculative 디코딩 | 78 | 38 % | 1.7× |
| D²SD (이중 diffusion) | 112 | 55 % | 2.5× |
| 자동회귀 speculative (예: Draft‑LLM) | 95 | 48 % | 2.1× |
- 높은 수용률: 여러 접두사를 탐색함으로써 D²SD는 검증 단계당 더 많은 초안 토큰을 수용한다(≈55 % vs. 단일 초안 베이스라인의 ≈38 %).
- GPU 효율성 향상: 배치된 두 번째 diffusion 패스가 가속기를 지속적으로 사용하게 하여, 순수 다중 초안 시도에서 발생하던 유휴 시간을 감소시킨다.
- 품질 유지: 표준 생성 벤치마크에서 BLEU / ROUGE 점수가 전체 자동회귀 베이스라인과 0.1 % 이내 차이로 유지돼, 속도 향상이 출력 충실도를 해치지 않음을 확인한다.
실용적 함의
- 빠른 LLM API: 클라우드 제공자는 D²SD를 추론 파이프라인에 통합함으로써 GPU당 처리 요청 수를 늘릴 수 있어 챗봇, 코드 어시스턴트, 실시간 번역 서비스의 지연 시간을 낮출 수 있다.
- 비용 절감: 토큰 처리량이 증가하면 생성 토큰당 컴퓨팅 비용이 직접 감소하므로, 멀티 테넌트 SaaS와 같은 대규모 배포가 보다 경제적이 된다.
- 엣지 배포: 이중 diffusion 접근법은 제한된 하드웨어(예: 온‑디바이스 가속기)에서도 배치 처리를 가능하게 하여, 비용이 많이 드는 자동회귀 패스 수를 줄인다.
- 프레임워크 호환성: D²SD는 기존 diffusion 기반 초안 모델과 표준 Transformer API 위에 구축되므로, PyTorch/TensorFlow 파이프라인에 큰 공학적 노력 없이 레트로핏할 수 있다.
제한점 및 향후 연구
- 모델 오버헤드: 두 개의 diffusion 초안 모델을 학습해야 하므로 개발 단계에서 메모리·연산 비용이 증가한다는 점이 트레이드오프로 언급된다.
- 신뢰도 보정: 접두사 트리의 효과는 토큰별 신뢰도 점수의 정확도에 크게 의존한다. 보정이 잘못되면 최적이 아닌 접두사가 선택될 수 있다.
- K의 확장성: 작은 K(예: 3‑5)에서는 좋은 성능을 보이지만, K를 크게 늘리면 검증 복잡도가 증가해 수익이 감소할 수 있다.
- 미래 방향: 저자들은 적응형 K 선택, 양자화된 목표 모델과의 긴밀한 통합, 텍스트‑투‑이미지와 같은 멀티모달 생성으로의 확장 등을 제안한다.
저자
- Liyuan Zhang
- Jiarui Zhang
- Jinwei Yao
- Ran Yan
- Yuchen Yang
- Jiahao Zhang
- Tongkai Yang
- Yi Wu
- Binhang Yuan
논문 정보
- arXiv ID: 2606.04446v1
- 분류: cs.DC, cs.LG
- 발표일: 2026년 6월 3일
- PDF: PDF 다운로드