[Paper] S2D2: 훈련 없이 자체 추측을 통한 Diffusion LLMs의 빠른 디코딩

발행: 1개월 전 (2026년 3월 27일 오전 02:48 GMT+9)

8 분 소요

원문: arXiv

Source: arXiv - 2603.25702v1

개요

이 논문은 S2D2라는 학습‑불필요 자체‑추측 디코딩 기법을 소개한다. 이 기법은 품질을 희생하지 않으면서 블록‑디퓨전 언어 모델(LLM)의 속도를 높인다. 동일한 사전학습 모델을 빠른 “드래프터”와 신뢰할 수 있는 “검증자”로 영리하게 재사용함으로써, S2D2는 확산 모델이 알려진 생성 충실도를 유지하면서 거의 자동회귀 수준의 속도를 달성한다.

주요 기여

Training‑free self‑speculation: 블록‑디퓨전 모델 자체를 자동회귀 검증기로 활용하여 추가 파인‑튜닝이나 보조 네트워크가 필요 없게 함.
Hybrid decoding trajectory: 표준 블록‑디퓨전 디코딩에 가벼운 검증 단계를 삽입해 “draft‑then‑verify” 파이프라인을 실시간으로 조정.
Routing policies: 검증이 가치 있는 시점을 판단하는 간단하고 연산‑인식 정책을 제안해 속도와 정확도 사이의 균형을 맞춤.
Broad empirical validation: 세 가지 주요 블록‑디퓨전 계열(e.g., SDAR, LLaDA2.1‑Mini) 전반에 걸쳐 일관된 속도‑정확도 향상을 입증.
Compatibility with existing tricks: S2D2가 내장된 자체‑수정 메커니즘과 결합되어 추가적인 이득을 제공함을 보여줌.

방법론

관찰 – 블록 크기가 1로 설정되면 블록‑디퓨전 모델은 표준 자동회귀 디코더와 정확히 동일하게 동작합니다. 이는 동일한 모델이 단일 토큰(초안)을 생성하고 나중에 더 긴 블록을 평가(검증)할 수 있음을 의미합니다.
초안 단계 – 모델은 기존과 같이 디퓨전 디노이징을 이용해 토큰 블록 전체를 병렬로 먼저 생성합니다.
추측 검증 – 블록을 확정하기 전에 S2D2는 같은 모델을 사용해 빠른 자동회귀 패스를 수행하여 초안 토큰에 점수를 매깁니다. 점수가 경량 라우팅 기준을 통과하면 블록이 받아들여지고, 그렇지 않으면 모델이 추가 디퓨전 스텝으로 돌아갑니다.
라우팅 정책 – 두 가지 간단한 정책을 탐색합니다:
- 신뢰도 기반: 자동회귀 확률이 임계값을 초과하면 수락합니다.
- 비용 인식: 기대되는 시간 절감이 검증 비용을 초과하면 수락합니다.
하이브리드 경로 – 디코더는 “디퓨전 전용” 모드와 “초안‑후‑검증” 모드 사이를 동적으로 전환하여, 순수 디퓨전보다 빠르면서도 과도한 신뢰도 임계값 적용보다 더 견고한 경로를 제공합니다.

결과 및 발견

모델 / 설정	자동회귀 대비 속도 향상	동적 베이스라인 대비 속도 향상	정확도 Δ (포인트)
SDAR (default)	4.7×	1.57×	+4.5
LLaDA2.1‑Mini (conservative)	4.4×	—	+0.3
세 가지 패밀리 전체	vanilla diffusion 대비 2–4배 빠름	tuned confidence‑thresholding 대비 1.2–1.6배 빠름	BLEU/ROUGE 최대 +4.5 포인트

핵심 요약

추가 학습 없이 속도 향상이 달성됩니다 – 초안 작성과 검증 모두 동일한 체크포인트를 사용합니다.
디코더가 더 공격적이어도 품질이 향상되거나 유지됩니다, 자동회귀 비평가 덕분입니다.
라우팅 정책은 가볍습니다(몇 번의 추가 순전파) 그리고 애플리케이션별로 튜닝할 수 있습니다.

Practical Implications

Faster LLM APIs – 배포자는 확산 기반 모델(병렬성 때문에 매력적임)을 거의 자동회귀 지연 시간으로 제공할 수 있어 요청 시간 비용을 줄일 수 있습니다.
Cost‑effective scaling – 추가 파라미터나 미세 조정이 필요 없으므로 클라우드 제공자는 기존 체크포인트를 재사용할 수 있어 GPU 메모리와 훈련 예산을 절감합니다.
Better user experience in interactive apps – 실시간 코드 완성, 채팅, 콘텐츠 생성 등이 감소된 “생각” 시간의 혜택을 받으며, 여전히 확산의 환각 방지 강인성을 활용할 수 있습니다.
Plug‑and‑play integration – 기존 확산 파이프라인은 S2D2를 활성화하기 위해 작은 래퍼만 필요하며, 아키텍처 전면 개편이 필요하지 않습니다.
Synergy with self‑correction – 이미 확산의 내장 자체 교정을 사용하는 팀은 LLaDA2.1‑Mini에서 보여진 것처럼 S2D2를 추가하여 속도를 더욱 높일 수 있습니다.

제한 사항 및 향후 연구

검증 오버헤드는 더 긴 시퀀스에서 증가합니다; 라우팅 정책은 매우 긴 생성 작업에 대해 신중하게 조정되어야 합니다.
블록 크기 의존성 – 기본 확산 모델이 이미 소규모 블록 병렬성을 지원할 때 이 방법이 빛을 발합니다; 매우 큰 블록은 여전히 취약성을 겪을 수 있습니다.
평가 범위 – 실험은 영어 벤치마크에 초점을 맞추고 있으며, 교차 언어 또는 도메인별 설정은 아직 탐구되지 않았습니다.
적응형 블록 크기 조정 가능성 – 향후 연구에서는 검증 피드백을 기반으로 모델이 블록 크기를 동적으로 축소하거나 확장하도록 하여 속도‑품질 트레이드오프를 더욱 강화할 수 있습니다.

저자

Ligong Han
Hao Wang
Han Gao
Kai Xu
Akash Srivastava

논문 정보

arXiv ID: 2603.25702v1
분류: cs.CL
출판일: 2026년 3월 26일
PDF: Download PDF

[Paper] S2D2: 훈련 없이 자체 추측을 통한 Diffusion LLMs의 빠른 디코딩

개요

주요 기여

방법론

결과 및 발견

Practical Implications

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] 커밋하기 학습: 온라인 리포지토리 메모리를 활용한 유기적 Pull Requests 생성

[Paper] 가중치 공유가 토큰 임베딩을 출력 공간으로 편향시킴

[Paper] PerceptionComp: 복잡한 인식 중심 추론을 위한 비디오 벤치마크

[Paper] EnTaCs: 감정과 언어 선택 사이의 관계를 영어‑타밀 코드 스위칭에서 분석