[Paper] DSD: 에지-클라우드 민첩한 대규모 모델 서빙을 위한 Distributed Speculative Decoding 솔루션
Source: arXiv - 2511.21669v1
개요
대형 언어 모델(LLM) 추론은 종종 높은 디코딩 지연과 이기종 엣지‑클라우드 환경 전반에 걸친 제한된 확장성으로 고통받는다. 기존의 speculative decoding(SD) 기법은 토큰 생성을 가속화하지만 단일 노드 실행에만 국한된다. 우리는 DSD를 제안한다. 이는 초안‑목표 실행을 조정하여 SD를 다중 디바이스 배포로 확장하는 분산 speculative decoding 프레임워크이다.
이 패러다임을 시뮬레이션한 선행 연구가 부족함을 감안하여, 먼저 네트워크, 배칭, 스케줄링 동역학을 포착하는 이산 이벤트 시뮬레이터 DSD‑Sim을 소개한다. DSD‑Sim에서 얻은 인사이트를 바탕으로, 추론 윈도우 크기를 동적으로 조정하여 처리량을 최적화하는 Adaptive Window Control (AWC) 정책을 추가 설계한다.
다양한 워크로드에 대한 실험 결과, DSD가 기존 SD 베이스라인에 비해 최대 1.1× 속도 향상 및 9.7 % 높은 처리량을 달성함을 보여주며, 엣지와 클라우드 전반에 걸친 민첩하고 확장 가능한 LLM 서빙을 가능하게 한다.
저자
- Fengze Yu
- Leshu Li
- Brad McDanel
- Saiqian Zhang
논문 정보
- arXiv ID: 2511.21669v1
- Categories: cs.LG, cs.DC
- Published: November 27, 2025
- PDF: Download PDF