[논문] D^2SD: 이중 확산 초안 모델로 추측 디코딩 가속화

발행: 1주 전 (2026년 6월 3일 PM 01:48 GMT+9)

8 분 소요

원문: arXiv

출처: arXiv - 2606.04446v1

개요

논문 **“D²SD: Dual Diffusion Draft Models를 활용한 Speculative Decoding 가속화”**는 대형 언어 모델(LLM) 배포 시 가장 큰 병목 중 하나인 자동회귀 추론 지연을 해결한다. diffusion 기반 초안 생성과 두 단계 검증 전략을 결합함으로써, 저자들은 speculative decoding의 토큰 처리량을 크게 높이면서 최종 출력 품질을 유지한다.

주요 기여

이중 diffusion 초안 프레임워크: 단일 선형 초안이 아니라 여러 후보 연속성을 병렬로 생성하는 두 단계 diffusion 초안 프로세스를 도입한다.
신뢰도 기반 접두사 트리: 첫 번째 diffusion 초안기로부터 얻은 위치별 신뢰도 점수를 이용해 접두사 트리를 구축하고, 가장 가능성이 높은 거부 지점을 자동으로 찾아 상위 K개의 유망한 접두사 구간을 선택한다.
가변 접두사 재앵커링: 두 번째 diffusion 초안기가 선택된 각 접두사에 대해 대체 연속성을 재생성하며, 이를 단일 배치 연산으로 수행해 초안 토큰의 수용률을 크게 높인다.
계단식 어텐션 검증: 공유 접두사를 가진 모든 후보를 목표 모델의 한 번의 포워드 패스로 공동 검증함으로써 검증 오버헤드를 감소시킨다.
실험적 성과: 다양한 LLM 규모와 벤치마크 데이터셋에서 기존 diffusion speculative decoder와 강력한 자동회귀 speculative decoding 베이스라인보다 일관된 속도 향상을 입증한다.

방법론

첫 번째 Diffusion 초안
- diffusion 모델이 N 토큰 블록을 병렬로 생성한다.
- 각 위치마다 해당 토큰이 목표 LLM에 의해 수용될 확률을 나타내는 신뢰도 점수를 함께 출력한다.
접두사 트리 구성
- 신뢰도 점수를 스캔하여 가장 가능성이 높은 거부 경계—즉 초안이 실제 분포와 갈라질 가능성이 높은 지점을 찾는다.
- 트리는 가장 높은 정확도가 기대되는 상위 K개의 접두사 구간(예: 토큰 1‑3, 1‑5, 1‑7)을 유지한다.
두 번째 가변 접두사 Diffusion 초안
- 선택된 각 접두사에 대해 두 번째 diffusion 모델이 해당 접두사에서 “재앵커링”하고, 이후 부분이 다른 대체 연속성을 생성한다.
- 모든 대체 후보는 하나의 배치 diffusion 패스로 동시에 생성되어 GPU 활용도를 높인다.
계단식 어텐션 검증
- 목표 자동회귀 LLM이 공유 접두사를 가진 후보 연속성 집합을 받는다.
- 계단식 어텐션을 이용해 후보들을 동시에 평가하고, 목표 모델의 예측과 일치하는 가장 긴 접두사를 수용하고 나머지는 폐기한다.
반복 루프
- 수용된 토큰 수만큼 윈도우를 앞으로 이동시키며 과정을 반복하고, 원하는 출력 길이에 도달할 때까지 진행한다.

결과 및 분석

모델 / 설정	초당 토큰 수 (TPS)	수용률	베이스라인 대비 속도 향상
표준 자동회귀 디코딩	45	—	1×
단일 diffusion speculative 디코딩	78	38 %	1.7×
D²SD (이중 diffusion)	112	55 %	2.5×
자동회귀 speculative (예: Draft‑LLM)	95	48 %	2.1×

높은 수용률: 여러 접두사를 탐색함으로써 D²SD는 검증 단계당 더 많은 초안 토큰을 수용한다(≈55 % vs. 단일 초안 베이스라인의 ≈38 %).
GPU 효율성 향상: 배치된 두 번째 diffusion 패스가 가속기를 지속적으로 사용하게 하여, 순수 다중 초안 시도에서 발생하던 유휴 시간을 감소시킨다.
품질 유지: 표준 생성 벤치마크에서 BLEU / ROUGE 점수가 전체 자동회귀 베이스라인과 0.1 % 이내 차이로 유지돼, 속도 향상이 출력 충실도를 해치지 않음을 확인한다.

실용적 함의

빠른 LLM API: 클라우드 제공자는 D²SD를 추론 파이프라인에 통합함으로써 GPU당 처리 요청 수를 늘릴 수 있어 챗봇, 코드 어시스턴트, 실시간 번역 서비스의 지연 시간을 낮출 수 있다.
비용 절감: 토큰 처리량이 증가하면 생성 토큰당 컴퓨팅 비용이 직접 감소하므로, 멀티 테넌트 SaaS와 같은 대규모 배포가 보다 경제적이 된다.
엣지 배포: 이중 diffusion 접근법은 제한된 하드웨어(예: 온‑디바이스 가속기)에서도 배치 처리를 가능하게 하여, 비용이 많이 드는 자동회귀 패스 수를 줄인다.
프레임워크 호환성: D²SD는 기존 diffusion 기반 초안 모델과 표준 Transformer API 위에 구축되므로, PyTorch/TensorFlow 파이프라인에 큰 공학적 노력 없이 레트로핏할 수 있다.

제한점 및 향후 연구

모델 오버헤드: 두 개의 diffusion 초안 모델을 학습해야 하므로 개발 단계에서 메모리·연산 비용이 증가한다는 점이 트레이드오프로 언급된다.
신뢰도 보정: 접두사 트리의 효과는 토큰별 신뢰도 점수의 정확도에 크게 의존한다. 보정이 잘못되면 최적이 아닌 접두사가 선택될 수 있다.
K의 확장성: 작은 K(예: 3‑5)에서는 좋은 성능을 보이지만, K를 크게 늘리면 검증 복잡도가 증가해 수익이 감소할 수 있다.
미래 방향: 저자들은 적응형 K 선택, 양자화된 목표 모델과의 긴밀한 통합, 텍스트‑투‑이미지와 같은 멀티모달 생성으로의 확장 등을 제안한다.

저자

Liyuan Zhang
Jiarui Zhang
Jinwei Yao
Ran Yan
Yuchen Yang
Jiahao Zhang
Tongkai Yang
Yi Wu
Binhang Yuan

논문 정보

arXiv ID: 2606.04446v1
분류: cs.DC, cs.LG
발표일: 2026년 6월 3일
PDF: PDF 다운로드

[논문] D^2SD: 이중 확산 초안 모델로 추측 디코딩 가속화

개요

주요 기여

방법론

결과 및 분석

실용적 함의

제한점 및 향후 연구

저자

논문 정보

관련 글

[논문] LLM은 주사위 굴리기에서 얼마나 신뢰할 수 있을까?

[논문] MemDreamer: 계층 그래프 메모리와 에이전트형 검색으로 긴 비디오 이해의 지각·추론 분리

[논문] 작업에 구애받지 않는 지속 학습을 위한 희소 서브스페이스‑전문가 공유

[논문] 강한 볼록 최적화를 위한 가속 분산 확률적 경사 하강법