[논문] VIA‑SD: 추측 디코딩을 위한 모델 내부 라우팅 기반 검증
개요
추측 디코딩(SD)은 경량 초안 생성기가 후보 토큰을 생성하고, 대형 검증기가 이를 병렬로 검증하도록 하여 LLM의 높은 추론 비용을 완화합니다. 기존 초안‑검증 방식은 “수락” 혹은 “전체 재계산”이라는 이진 결정을 사용합니다. 그러나 우리는 많은 거부된 토큰이 전체 검증기가 아니라, 모델 내부 라우팅을 통해 전체 검증기에서 파생된 슬림 서브모델로도 올바르게 검증될 수 있음을 발견했습니다. 이는 중간 정도의 검증 자원이 필요한 토큰을 슬림 검증기가 처리하도록 하여, 비용이 큰 대형 모델 호출을 줄이는 동기를 제공합니다. 우리는 Verification via Intra-Model Routing for Speculative Decoding (VIA‑SD) 를 제안합니다. 이는 라우팅된 슬림 검증기를 활용하는 다계층 프레임워크로, 초안 토큰을 다음과 같이 계층적으로 처리합니다.
- 고신뢰 경우 – 직접 수락
- 중간 신뢰 경우 – 슬림 검증기 재생성
- 불확실한 경우 – 전체 모델 검증
네 개의 대표 작업과 여러 모델 패밀리에서 VIA‑SD는 거부율을 0.10‑0.22 감소시키고, 강력한 SD 베이스라인 대비 10‑20% 속도 향상을 달성했으며, 초안 없이 디코딩할 때보다 2.5‑3배 가속을 보였습니다. 또한 VIA‑SD는 기존 SD 프레임워크와 호환되며 학습 절차를 수정할 필요가 없습니다. 우리의 결과는 다계층 SD가 확장 가능하고 효율적인 LLM 추론을 위한 일반적인 패러다임이 될 수 있음을 시사합니다. 프로젝트 페이지: https://zju-xyc.github.io/VIA-SD-Project-Page/
주요 기여
이 논문은 다음 분야의 연구를 다룹니다.
- cs.CL
- cs.AI
방법론
자세한 방법론은 전체 논문을 참고하십시오.
실용적 함의
본 연구는 cs.CL 분야의 발전에 기여합니다.
저자
- Yuchen Xian
- Yang He
- Yunqiu Xu
- Yi Yang
논문 정보
- arXiv ID: 2606.12243v1
- 분류: cs.CL, cs.AI
- 발표일: 2026년 6월 10일
- PDF: PDF 다운로드