[Paper] SIMPLE: GPU 추론에서 샘플링을 분리하여 Decision Plane으로 전환, 더 빠른 Distributed LLM Serving을 위해

발행: 5일 전 (2025년 11월 30일 오후 01:15 GMT+9)

8 min read

원문: arXiv

Source: arXiv - 2512.00719v1

Overview

이 논문은 SIMPLE이라는 새로운 아키텍처를 소개한다. SIMPLE은 대규모 언어 모델(LLM) 추론 시 샘플링 단계를 GPU에서 가벼운 CPU 서비스로 옮긴다. 이 “결정 플레인”을 고도로 최적화된 GPU 데이터 플레인(어텐션, GEMM, KV‑cache)과 분리함으로써, SIMPLE은 현대의 고도로 병렬화된 LLM 배포에서 처리량과 지연 시간을 제한하던 점점 커지는 병목 현상을 제거한다.

Key Contributions

결정‑플레인 분리: 샘플링을 별도의 CPU‑측 서비스로 전환하여 GPU 연산과 병렬로 실행할 수 있게 한다.
시퀀스‑병렬 샘플링: 배치 차원을 CPU 워커에 샤딩하여 어휘 축에 대한 비용이 큰 집합 연산을 제거한다.
선형‑시간 CPU 샘플링 커널: 열‑단위 패널티와 “먼저 절단” 필터를 도입해 정렬 비용 없이 단일 패스, O(어휘) 복잡도를 달성한다.
Speculative Hot‑Vocab Sampling (SHVS): 작은 고확률 “핫” 어휘 집합에서 동적으로 샘플링하고, 거부‑정확성 단계를 적용해 정확성을 유지하면서 작업량을 크게 줄인다.
코드 변경 없이 통합: SIMPLE은 사용자 애플리케이션이나 모델 코드를 수정할 필요 없이 기존 서빙 스택에 바로 연결할 수 있다.

Methodology

파이프라인 분리 – 저자들은 샘플링을 독립적인 마이크로‑서비스로 취급한다. GPU는 어텐션 계산과 KV 캐시 업데이트를 계속 수행하는 동안, CPU는 동시에 로짓을 받아 샘플링을 수행하고 선택된 토큰을 다음 파이프라인 단계로 스트리밍한다.
시퀀스‑병렬 작업 분할 – 전체 로짓 행렬(배치 × 어휘)을 단일 노드에 모으는 대신, 각 CPU 워커가 배치의 일부분을 처리한다. 이는 어휘 차원 전체에 대한 all‑reduce가 필요 없게 하여, 확장성의 주요 병목을 제거한다.
효율적인 CPU 알고리즘
- 열‑단위 패널티는 온도, top‑p 등 제약을 로짓 열에 직접 적용해 토큰당 스캔을 피한다.
- 먼저 절단 필터링은 정렬 전에 낮은 확률 토큰을 빠르게 제외해 어휘 전체에 대한 단일 선형 패스를 보장한다.
Speculative Hot‑Vocab Sampling (SHVS)
- 경량 모델이 대부분의 확률 질량을 포착하는 “핫” 어휘 집합의 크기를 예측한다.
- 샘플링은 이 축소된 집합에서만 수행하고, 샘플링된 토큰이 집합 밖에 있으면 전체 분포에서 다시 샘플링하는 거부 단계가 적용돼 정확성을 유지한다.
GPU 작업과 겹치기 – CPU 서비스는 비동기적으로 실행되어 GPU 연산 시간 뒤에 숨겨지므로, 결정‑플레인의 기여도가 실질적인 경로에서 크게 감소한다.

Results & Findings

Metric	Baseline (GPU‑only)	SIMPLE	Improvement
End‑to‑end throughput (tokens/s)	1.0×	up to 1.96×	+96 %
P95 latency (per token)	100 ms (example)	35‑80 ms	–20 % to –65 %
GPU utilization (last PP stage)	70 % (capped by sampling)	>90 %	–
Scaling with TP/PP	Degrades as GPUs get faster	Remains linear	–

핵심 요약

SIMPLE 적용 후 결정 플레인의 전체 반복 시간 비중이 ~30 %에서 <5 %로 감소한다.
SHVS만으로도 대부분의 속도 향상이 이루어지며, 특히 모델·온도별로 핫‑어휘 크기를 조정할 때 효과가 크다.
SIMPLE은 기존 텐서‑패럴렐 및 파이프라인‑패럴렐 프레임워크(예: Megatron‑LM, DeepSpeed)와 코드 수정 없이 동작한다.

Practical Implications

LLM API의 처리량 증가: 클라우드 제공자는 GPU당 더 많은 요청을 처리할 수 있어 토큰당 비용이 감소한다.
Tail latency 감소: 인터랙티브 애플리케이션(코드 어시스턴트, 챗봇)에서 95번째 백분위수 응답 시간이 크게 개선돼 사용자 경험이 향상된다.
미래 지향적 확장성: GPU 연산이 계속 가속화되더라도 결정 플레인이 제한 요인이 되지 않아 TP/PP가 자유롭게 확장될 수 있다.
배포 간소화: 팀은 SIMPLE을 드롭‑인 서비스 레이어로 도입해 모델 그래프나 추론 코드를 침범하지 않고도 적용할 수 있다.
CPU 친화적 워크로드: 일반적인 추론 클러스터에서 활용되지 않던 CPU 자원을 활용해 전체 하드웨어 효율성을 높인다.

Limitations & Future Work

CPU 부하 균형: 배치 크기가 극단적으로 커질 경우 CPU 측이 포화될 수 있다; 적응형 부하 차단이나 다중 노드 CPU 확장은 아직 해결되지 않은 과제이다.
핫‑어휘 모델 정확도: 핫‑어휘 크기 추정에 사용되는 휴리스틱이 단순하므로, 보다 정교하고 모델‑인식적인 예측기가 throughput을 추가로 향상시킬 수 있다.
메모리 오버헤드: 모델당 핫‑어휘 테이블을 유지하면 CPU 메모리 사용량이 다소 늘어나며, 어휘가 매우 클 경우 무시할 수 없는 비용이 될 수 있다.
디코더‑전용 LLM 외 일반화: 본 논문은 자동회귀 모델에 초점을 맞추고 있어, 인코더‑디코더 혹은 멀티모달 아키텍처에 SIMPLE을 적용하는 연구는 향후 과제로 남는다.

결론: SIMPLE은 샘플링 단계를 GPU에서 분리하고 CPU 병렬성에 맞게 재설계함으로써 LLM 서빙 처리량을 거의 두 배로 늘리고 tail latency를 크게 줄일 수 있음을 보여준다—사용자 코드 변경 없이. 확장 가능한 LLM 서비스를 구축하는 개발자에게는 차세대 성능 향상을 실현할 실용적인 경로를 제공한다.

Authors

Bohan Zhao
Zane Cao
Yongchao He

Paper Information

arXiv ID: 2512.00719v1
Categories: cs.DC
Published: November 30, 2025
PDF: Download PDF

[Paper] SIMPLE: GPU 추론에서 샘플링을 분리하여 Decision Plane으로 전환, 더 빠른 Distributed LLM Serving을 위해

Overview

Key Contributions

Methodology

Results & Findings

Practical Implications

Limitations & Future Work

Authors

Paper Information

관련 글

[Paper] 테라헤르츠 무선 통신을 위한 Federated Learning

[Paper] FLEX: FPGA-CPU 시너지 활용을 통한 혼합 셀 높이 Legalization 가속

[Paper] CXL 기반 컴퓨테이셔널 메모리로 오프로드

[Paper] 구조 인식형 불규칙 블로킹 방법을 이용한 Sparse LU Factorization