[논문] D^2SD: 이중 확산 초안 모델로 추측 디코딩 가속화

발행: (2026년 6월 3일 PM 01:48 GMT+9)
8 분 소요
원문: arXiv

출처: arXiv - 2606.04446v1

개요

논문 **“D²SD: Dual Diffusion Draft Models를 활용한 Speculative Decoding 가속화”**는 대형 언어 모델(LLM) 배포 시 가장 큰 병목 중 하나인 자동회귀 추론 지연을 해결한다. diffusion 기반 초안 생성과 두 단계 검증 전략을 결합함으로써, 저자들은 speculative decoding의 토큰 처리량을 크게 높이면서 최종 출력 품질을 유지한다.

주요 기여

  • 이중 diffusion 초안 프레임워크: 단일 선형 초안이 아니라 여러 후보 연속성을 병렬로 생성하는 두 단계 diffusion 초안 프로세스를 도입한다.
  • 신뢰도 기반 접두사 트리: 첫 번째 diffusion 초안기로부터 얻은 위치별 신뢰도 점수를 이용해 접두사 트리를 구축하고, 가장 가능성이 높은 거부 지점을 자동으로 찾아 상위 K개의 유망한 접두사 구간을 선택한다.
  • 가변 접두사 재앵커링: 두 번째 diffusion 초안기가 선택된 각 접두사에 대해 대체 연속성을 재생성하며, 이를 단일 배치 연산으로 수행해 초안 토큰의 수용률을 크게 높인다.
  • 계단식 어텐션 검증: 공유 접두사를 가진 모든 후보를 목표 모델의 한 번의 포워드 패스로 공동 검증함으로써 검증 오버헤드를 감소시킨다.
  • 실험적 성과: 다양한 LLM 규모와 벤치마크 데이터셋에서 기존 diffusion speculative decoder와 강력한 자동회귀 speculative decoding 베이스라인보다 일관된 속도 향상을 입증한다.

방법론

  1. 첫 번째 Diffusion 초안

    • diffusion 모델이 N 토큰 블록을 병렬로 생성한다.
    • 각 위치마다 해당 토큰이 목표 LLM에 의해 수용될 확률을 나타내는 신뢰도 점수를 함께 출력한다.
  2. 접두사 트리 구성

    • 신뢰도 점수를 스캔하여 가장 가능성이 높은 거부 경계—즉 초안이 실제 분포와 갈라질 가능성이 높은 지점을 찾는다.
    • 트리는 가장 높은 정확도가 기대되는 상위 K개의 접두사 구간(예: 토큰 1‑3, 1‑5, 1‑7)을 유지한다.
  3. 두 번째 가변 접두사 Diffusion 초안

    • 선택된 각 접두사에 대해 두 번째 diffusion 모델이 해당 접두사에서 “재앵커링”하고, 이후 부분이 다른 대체 연속성을 생성한다.
    • 모든 대체 후보는 하나의 배치 diffusion 패스로 동시에 생성되어 GPU 활용도를 높인다.
  4. 계단식 어텐션 검증

    • 목표 자동회귀 LLM이 공유 접두사를 가진 후보 연속성 집합을 받는다.
    • 계단식 어텐션을 이용해 후보들을 동시에 평가하고, 목표 모델의 예측과 일치하는 가장 긴 접두사를 수용하고 나머지는 폐기한다.
  5. 반복 루프

    • 수용된 토큰 수만큼 윈도우를 앞으로 이동시키며 과정을 반복하고, 원하는 출력 길이에 도달할 때까지 진행한다.

결과 및 분석

모델 / 설정초당 토큰 수 (TPS)수용률베이스라인 대비 속도 향상
표준 자동회귀 디코딩45
단일 diffusion speculative 디코딩7838 %1.7×
D²SD (이중 diffusion)11255 %2.5×
자동회귀 speculative (예: Draft‑LLM)9548 %2.1×
  • 높은 수용률: 여러 접두사를 탐색함으로써 D²SD는 검증 단계당 더 많은 초안 토큰을 수용한다(≈55 % vs. 단일 초안 베이스라인의 ≈38 %).
  • GPU 효율성 향상: 배치된 두 번째 diffusion 패스가 가속기를 지속적으로 사용하게 하여, 순수 다중 초안 시도에서 발생하던 유휴 시간을 감소시킨다.
  • 품질 유지: 표준 생성 벤치마크에서 BLEU / ROUGE 점수가 전체 자동회귀 베이스라인과 0.1 % 이내 차이로 유지돼, 속도 향상이 출력 충실도를 해치지 않음을 확인한다.

실용적 함의

  • 빠른 LLM API: 클라우드 제공자는 D²SD를 추론 파이프라인에 통합함으로써 GPU당 처리 요청 수를 늘릴 수 있어 챗봇, 코드 어시스턴트, 실시간 번역 서비스의 지연 시간을 낮출 수 있다.
  • 비용 절감: 토큰 처리량이 증가하면 생성 토큰당 컴퓨팅 비용이 직접 감소하므로, 멀티 테넌트 SaaS와 같은 대규모 배포가 보다 경제적이 된다.
  • 엣지 배포: 이중 diffusion 접근법은 제한된 하드웨어(예: 온‑디바이스 가속기)에서도 배치 처리를 가능하게 하여, 비용이 많이 드는 자동회귀 패스 수를 줄인다.
  • 프레임워크 호환성: D²SD는 기존 diffusion 기반 초안 모델과 표준 Transformer API 위에 구축되므로, PyTorch/TensorFlow 파이프라인에 큰 공학적 노력 없이 레트로핏할 수 있다.

제한점 및 향후 연구

  • 모델 오버헤드: 두 개의 diffusion 초안 모델을 학습해야 하므로 개발 단계에서 메모리·연산 비용이 증가한다는 점이 트레이드오프로 언급된다.
  • 신뢰도 보정: 접두사 트리의 효과는 토큰별 신뢰도 점수의 정확도에 크게 의존한다. 보정이 잘못되면 최적이 아닌 접두사가 선택될 수 있다.
  • K의 확장성: 작은 K(예: 3‑5)에서는 좋은 성능을 보이지만, K를 크게 늘리면 검증 복잡도가 증가해 수익이 감소할 수 있다.
  • 미래 방향: 저자들은 적응형 K 선택, 양자화된 목표 모델과의 긴밀한 통합, 텍스트‑투‑이미지와 같은 멀티모달 생성으로의 확장 등을 제안한다.

저자

  • Liyuan Zhang
  • Jiarui Zhang
  • Jinwei Yao
  • Ran Yan
  • Yuchen Yang
  • Jiahao Zhang
  • Tongkai Yang
  • Yi Wu
  • Binhang Yuan

논문 정보

  • arXiv ID: 2606.04446v1
  • 분류: cs.DC, cs.LG
  • 발표일: 2026년 6월 3일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »