[Paper] LLM 추론 서빙에서 Goodput을 극대화하기 위한 동적 PD-Disaggregation 아키텍처

발행: (2025년 11월 26일 오전 11:27 GMT+9)
3 min read
원문: arXiv

Source: arXiv

Abstract

엄격한 서비스 수준 목표(SLO)를 충족하기 위해 최신 대형 언어 모델(LLM)은 프리필(prefill) 단계와 디코딩(decoding) 단계를 분리하고 각각을 별도의 GPU에 배치하여 각 단계固有의 병목 현상을 완화한다. 그러나 LLM 워크로드의 이질성으로 인해 이러한 분산 아키텍처에서 두 인스턴스 유형 간에 생산자‑소비자 불균형이 발생한다. 이 문제를 해결하기 위해 우리는 **DOPD (Dynamic Optimal Prefill/Decoding)**를 제안한다. DOPD는 실시간 부하 모니터링을 기반으로 최적의 프리필‑대‑디코딩(P/D) 비율을 달성하도록 인스턴스 할당을 동적으로 조정하는 LLM 추론 시스템이다. 적절한 요청 스케줄링 정책과 결합하면, DOPD는 프리필 인스턴스와 디코딩 인스턴스 간의 불균형을 효과적으로 해소하고 높은 동시성 하에서 혼합 길이 요청으로 인한 자원 할당 불일치를 완화한다.

실험 평가 결과, vLLM 및 DistServe(대표적인 집합 기반 및 분산 기반 접근법)와 비교했을 때 DOPD는 전체 시스템 처리량을 최대 1.5배 향상시키고, **P90 첫 토큰 도달 시간(TTFT)**을 최대 67.5 % 감소시키며, **P90 출력 토큰당 시간(TPOT)**을 최대 22.8 % 감소시켰다. 또한, 우리의 동적 P/D 조정 기법은 과거 부하를 기반으로 사전 재구성을 수행하여 추가 자원을 적게 사용하면서 99 % 이상의 SLO 달성을 달성한다.

Back to Blog

관련 글

더 보기 »

Friday Five — 2025년 12월 5일

!1https://www.redhat.com/rhdc/managed-files/styles/default_800/private/number-1.png.webp?itok=pDWx13kK Red Hat이 AWS 전반에 걸쳐 향상된 AI 추론을 제공한다 Red H...