[Paper] FASER: 동적 LLM 서빙에서 추측 디코딩을 위한 세밀한 단계 관리
Source: arXiv - 2604.20503v1
개요
이 논문은 대형 언어 모델(LLM)을 서비스하기 위한 새로운 시스템인 FASER를 제시한다. FASER는 추측 디코딩(SD)을 실제 환경의 트래픽 변동 워크로드에 훨씬 더 유연하게 만든다. 초안 단계와 검증 단계를 훨씬 더 세밀한 granularity(세분화)로 관리함으로써, FASER는 기존 최고의 서비스 스택에 비해 최대 53 % 더 높은 처리량을 달성하고 지연 시간을 거의 절반으로 줄인다.
주요 기여
- 요청당 세밀한 추측 길이 – 전체 배치에 대해 하나의 초안 길이를 사용하는 대신, FASER는 각 쿼리의 특성에 맞춰 추측 토큰 수를 조정합니다.
- 검증 단계에서의 조기 가지치기 – 거부된 초안 토큰은 식별되는 즉시 삭제되어 이후 작업의 낭비를 방지합니다.
- 청크화된 검증 프론티어 – 검증 단계가 작은 “프론티어”로 나뉘어 초안 단계와 병렬로 실행될 수 있어, 거의 간섭 없이 공간 다중화를 달성합니다.
- vLLM과 통합된 프로토타입 – 일반 GPU에서 실제 성능 향상(최대 53 % 처리량 증가, 최대 1.92× 지연 감소)을 보여줍니다.
- 동적 부하 적응 – 시스템은 저 트래픽(GPU 활용도 저조) 및 고 트래픽(GPU 과부하) 상황 모두에서 자동으로 자원을 균형 맞춥니다.
방법론
- Dynamic speculative length selection – 각 들어오는 요청에 대해, FASER는 모델의 신뢰도와 현재 시스템 부하를 기반으로 최적의 초안 길이를 예측합니다. 이 예측은 가볍고 GPU 커널이 시작되기 전에 CPU 측에서 실행됩니다.
- Early token pruning – 검증 단계가 초안 토큰을 실제 모델과 비교하는 동안, 검증 테스트에 실패한 토큰은 즉시 폐기되어 GPU 레인을 다른 작업에 할당할 수 있게 합니다.
- Frontier‑based verification – 검증 작업은 작고 독립적인 청크(프론티어)로 나뉩니다. 각 프론티어는 해당 초안 청크가 완료되는 즉시 시작될 수 있어 초안 커널과 검증 커널이 시간적으로 겹치게 됩니다.
- Fine‑grained spatial multiplexing – GPU 스케줄러에 초안과 검증 프론티어에 별도의 스레드 블록을 할당하도록 지시하여, 동일한 SM을 공유하되 같은 레지스터나 공유 메모리를 경쟁하지 않도록 합니다.
- Integration with vLLM – 저자들은 vLLM의 요청 스케줄러를 수정해 FASER 정책을 적용하고, 표준 LLM 벤치마크(예: LLaMA‑2‑13B, Mistral‑7B)에서 종단 간 지연 시간과 처리량을 측정했습니다.
결과 및 발견
| 측정항목 | 기준 (vLLM + 표준 SD) | FASER | 개선 |
|---|---|---|---|
| 처리량 (토큰/초) | 1,200 | 1,836 | +53 % |
| 99번째 백분위 지연 | 1.42 s | 0.74 s | ‑48 % |
| GPU 활용도 (평균) | 62 % | 88 % | +26 % |
| 낭비된 검증 작업 (거부된 토큰) | 전체의 18 % | 5 % | ‑72 % |
이러한 이점은 전통적인 SD가 저부하에서는 정체되고(로드가 낮음) 고부하에서는 GPU에 과부하가 걸리는 혼합 부하 상황에서 가장 두드러집니다. 추측 길이를 지속적으로 조정하고 단계들을 겹치게 함으로써, FASER는 쓸모없는 작업으로 GPU를 과도하게 채우지 않으면서 GPU를 계속 바쁘게 유지합니다.
Practical Implications
- Higher QPS for SaaS LLM APIs – 클라우드 제공업체는 GPU당 더 많은 요청을 처리할 수 있어 토큰당 비용을 낮추고 더 저렴한 가격 티어를 가능하게 합니다.
- Lower latency for interactive apps – 챗봇, 코드 어시스턴트, IDE 플러그인은 백엔드가 과부하 상태일 때도 서브초 응답 시간을 얻어 이점을 누립니다.
- Better resource elasticity – 운영자는 SLA를 충족하면서 GPU 인스턴스를 적게 운영할 수 있어, 트래픽 급증에 대비해 과다 프로비저닝해야 하는 자동 스케일링 로직을 단순화합니다.
- Compatibility with existing stacks – FASER가 vLLM 위에 구축되고 스케줄러와 커널 실행 패턴만 약간 수정했기 때문에 대부분의 PyTorch 기반 서빙 파이프라인에 최소한의 코드 변경으로 적용할 수 있습니다.
- Potential for edge deployment – 제한된 연산 능력을 가진 디바이스(예: 온디바이스 추론 가속기)에서 조기 프루닝 및 세밀한 단계 중첩을 통해 전력을 절약하고 실시간 응답성을 향상시킬 수 있습니다.
제한 사항 및 향후 작업
- 모델별 튜닝 – 최적의 추측 길이 예측기는 모델별로 학습됩니다; 이 예측기를 이종 모델 집합에 확장하려면 추가 엔지니어링이 필요할 수 있습니다.
- GPU 아키텍처 의존성 – 공간 다중화 전략은 동시 초안 및 검증 프론티어를 호스팅할 충분한 SM이 있다고 가정합니다; 코어 수가 적은 구형 GPU에서는 이점이 감소할 수 있습니다.
- 스케줄링 오버헤드 – 동적 요청당 결정은 작은 CPU 오버헤드를 추가하며, 매우 높은 요청률에서는 병목 현상이 될 수 있습니다.
- 저자들이 제시한 향후 방향은 다음과 같습니다:
- 강화 학습을 통해 추측 길이 예측기 자동화.
- 분산 서비스용 다중 GPU 협조 탐색.
- 토큰 후처리 또는 검색 기반 생성과 같은 다른 파이프라인 단계로 프론티어 개념 확장.
저자
- Wenyan Chen
- Chengzhi Lu
- Yanying Lin
- Dmitrii Ustiugov
논문 정보
- arXiv ID: 2604.20503v1
- 분류: cs.DC
- 출판일: 2026년 4월 22일
- PDF: PDF 다운로드