[Paper] Prefill-as-a-Service: 차세대 모델의 KVCache가 크로스-데이터센터로 이동 가능

발행: 1일 전 (2026년 4월 16일 PM 11:07 GMT+9)

10 분 소요

원문: arXiv

Source: arXiv - 2604.15039v1

Overview

이 논문은 Prefill-as-a-Service (PrfaaS) 를 소개한다. 이는 대규모 언어 모델(LLM)을 지리적으로 분리된 클러스터에 걸쳐 서비스하는 작업을 분할하는 새로운 방법이다. 무거운 “prefill” 단계를 전용의 연산 집약적인 머신에 오프로드하고, 훨씬 작은 KV‑cache만을 디코드 클러스터로 전달함으로써, PrfaaS는 저지연 RDMA 패브릭 없이도 이기종 하드웨어(예: 한 데이터센터의 GPU, 다른 데이터센터의 ASIC)를 실행할 수 있게 한다. 저자들은 이 아키텍처가 기존의 단일형 배포에 비해 처리량을 최대 **54 %**까지 향상시키면서도 데이터센터 간 트래픽을 적절히 유지한다는 것을 보여준다.

Key Contributions

Cross‑datacenter PD serving architecture 독립 클러스터 간에 프리필과 디코드를 분리하는 아키텍처.
Selective offloading 장기 컨텍스트 프리필 작업을 “prefill‑only” 클러스터로 선택적으로 오프로드하여, 하이브리드‑어텐션 모델 덕분에 KV‑cache 전송 크기를 감소시킴.
Bandwidth‑aware scheduling & cache‑aware request placement 버스트형 워크로드, 비대칭 요청 길이, 불균형한 프리픽스‑캐시 분포를 완화하기 위한 스케줄링 및 요청 배치.
Empirical evaluation 1‑트릴리언 파라미터 하이브리드 모델에 대한 평가에서 동질적인 PD 베이스라인 대비 54 % 높은 처리량, 순수 이질적 설정 대비 32 % 향상을 입증.
Practical design guidelines 프리필과 디코드 용량을 독립적으로 확장하기 위한 실용적인 설계 지침으로, 공유 RDMA 네트워크 없이도 이질적인 가속기 군집을 가능하게 함.

방법론

Hybrid‑attention model selection – 저자들은 밀집(attention)과 희소(attention)를 혼합한 차세대 LLM을 사용하여 KV‑cache(각 토큰에 대해 저장되는 키‑값 쌍)를 자연스럽게 축소합니다.
System decomposition – 서빙 파이프라인을 두 개의 논리적 단계로 나눕니다:
- Prefill cluster: 전체 프롬프트를 받아 모델의 프리필(pre‑fill) 과정을 실행하고 압축된 KV‑cache를 생성합니다.
- Decode cluster: KV‑cache를 받아 로컬 가속기를 사용해 토큰‑단위 생성(디코드)을 계속합니다.
Selective offloading policy – 설정 가능한 임계값(예: > 1 k 토큰)보다 긴 요청은 프리필 클러스터로 라우팅하고, 짧은 프롬프트는 불필요한 네트워크 홉을 피하기 위해 로컬에 유지합니다.
Bandwidth‑aware scheduler – 실시간 이더넷 대역폭을 모니터링하고, KV‑cache 트래픽을 안전한 범위 내에 유지하도록 요청을 제한하거나 재라우팅하여 혼잡을 방지합니다.
Cache‑aware placement – 자주 사용되는 프리픽스를 두 클러스터에 복제하여 반복 요청이 프리필 단계를 완전히 건너뛸 수 있게 합니다.
Prototype implementation – 기존 PD 서빙 스택(예: vLLM/DeepSpeed‑Inference)을 기반으로 KV‑cache 직렬화를 위한 RPC 훅을 추가하여 일반 이더넷 상에서 동작하도록 구현했습니다.

평가는 프로덕션과 유사한 워크로드 트레이스(버스트가 강하고 프롬프트 길이가 무거운 꼬리를 가짐)를 사용하고 세 가지 설정을 비교합니다: (a) 동질적인 PD(모든 작업이 하나의 클러스터에서 수행), (b) 순진한 이종(스케줄링 없이 전체 오프로드), 그리고 (c) PrfaaS.

결과 및 발견

메트릭	동질적 PD	순수 이기종	PrfaaS
처리량 (queries/s)	1.00× (baseline)	1.18×	1.54×
평균 지연시간 (ms)	120	135 (네트워크 정체로 인함)	110 (약간 낮음)
데이터센터 간 대역폭	N/A (모두 로컬)	1.8 GB/s (스파이크)	0.6 GB/s (안정적)
GPU/ASIC 활용도	68 % (prefill에 병목)	72 % (decode 활용 부족)	85 % (균형)

핵심 요약

KV‑캐시 감소만으로는 충분하지 않으며, 하이브리드 어텐션만으로는 부족합니다; 지능형 요청 라우팅과 대역폭 관리가 필수입니다.
버스트 처리: PrfaaS의 스케줄러는 트래픽을 부드럽게 하여, 순수 이기종 베이스라인을 마비시킨 큐 축적을 방지합니다.
자원 탄력성: 프리필 클러스터는 디코드 플릿에 영향을 주지 않고 독립적으로 확장할 수 있습니다(예: GPU 노드 추가). 이를 통해 비용 효율적인 용량 계획이 가능합니다.

Practical Implications

Cost‑effective scaling – 기업은 저비용 지역에서 저렴하고 연산 집약적인 프리필 노드(예: GPU‑rich 서버)를 가동하고, 지연‑민감 디코드 노드(예: ASIC)를 최종 사용자에 가깝게 유지할 수 있습니다.
Hardware heterogeneity – 데이터센터 전반에 걸쳐 다양한 가속기 유형을 혼합할 수 있게 하며, 1T‑parameter 모델을 실행하기 위해 단일 공급업체의 RDMA‑enabled 패브릭이 더 이상 필요하지 않습니다.
Improved SLA adherence – KV‑cache 트래픽을 부드럽게 함으로써, 급격한 트래픽 급증 상황에서도 서비스는 더 엄격한 지연 시간 백분위수를 유지할 수 있습니다.
Simplified capacity planning – 프리필과 디코드에 대한 별도 메트릭을 통해 운영팀이 자원을 독립적으로 예측하고 프로비저닝할 수 있어 과다 프로비저닝을 줄일 수 있습니다.
Potential for edge‑centric LLMs – 가벼운 디코드 클러스터를 에지 위치(예: CDN 노드)에 배치하고, 무거운 프리필은 중앙에서 실행함으로써 새로운 제품 가능성을 열 수 있습니다(실시간 어시스턴트, 원격 컨텍스트와 함께하는 온‑디바이스 추론).

제한 사항 및 향후 연구

네트워크 의존성 – PrfaaS는 일반 이더넷에서도 작동하지만, 극심한 대역폭 감소나 높은 패킷 손실은 디코드 지연을 악화시킬 수 있다; 보다 견고한 오류 복구 메커니즘이 필요하다.
캐시 일관성 – 클러스터 간에 동기화된 프리픽스 캐시를 유지하는 데 오버헤드가 발생한다; 논문에서는 캐시 제거 정책을 미해결 설계 영역으로 남겨두었다.
모델 일반성 – 결과는 특정 하이브리드 어텐션 1T 모델에 대해 보여졌다; 순수한 밀집 어텐션 모델이나 검색 보강 모델에 대한 적용 가능성은 추가 연구가 필요하다.
보안 및 프라이버시 – KV‑캐시를 데이터센터 간에 전송하면 토큰 임베딩이 노출될 수 있다; 향후 연구에서는 암호화나 보안 엔클레이브를 탐색해야 한다.
자동화 – 현재 프로토타입은 오프로드를 위해 정적 임계값을 사용한다; 적응형 학습 기반 스케줄러는 동적 워크로드에서 활용도를 더욱 향상시킬 수 있다.

저자

Ruoyu Qin
Weiran He
Yaoyu Wang
Zheming Li
Xinran Xu
Yongwei Wu
Weimin Zheng
Mingxing Zhang

논문 정보

arXiv ID: 2604.15039v1
분류: cs.DC
출판일: 2026년 4월 16일
PDF: PDF 다운로드

[Paper] Prefill-as-a-Service: 차세대 모델의 KVCache가 크로스-데이터센터로 이동 가능

Overview

Key Contributions

방법론

결과 및 발견

Practical Implications

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[Paper] 하이브리드 HPC‑양자 시스템에서 회로 절단을 위한 Wave-Based Dispatch

[논문] SCENIC: 스트림 컴퓨테이션 강화 SmartNIC

[Paper] 멀티-NUMA 가상 머신을 위한 사용 가능한 공간의 효율적인 계산

[Paper] 대용량 메모리 풋프린트를 가진 체인 구조 작업 서비스와 Large Foundation Model Serving에의 적용