· devops
[Paper] LLM 추론 서빙에서 Goodput을 극대화하기 위한 동적 PD-Disaggregation 아키텍처
엄격한 서비스 수준 목표(SLO)를 충족하기 위해, 현대의 대형 언어 모델(LLMs)은 프리필(prefill) 단계와 디코딩(decoding) 단계를 분리하고 이를 별개의 GPU에 배치한다.
엄격한 서비스 수준 목표(SLO)를 충족하기 위해, 현대의 대형 언어 모델(LLMs)은 프리필(prefill) 단계와 디코딩(decoding) 단계를 분리하고 이를 별개의 GPU에 배치한다.