EUNO.NEWS EUNO.NEWS
  • All (20038) +213
  • AI (3083) +12
  • DevOps (901) +6
  • Software (10306) +149
  • IT (5702) +46
  • Education (45)
  • Notice (1)
  • All (20038) +213
    • AI (3083) +12
    • DevOps (901) +6
    • Software (10306) +149
    • IT (5702) +46
    • Education (45)
  • Notice (1)
  • All (20038) +213
  • AI (3083) +12
  • DevOps (901) +6
  • Software (10306) +149
  • IT (5702) +46
  • Education (45)
  • Notice (1)
Sources Tags Search
한국어 English 中文
  • 1개월 전 · devops

    [Paper] LLM 추론 서빙에서 Goodput을 극대화하기 위한 동적 PD-Disaggregation 아키텍처

    엄격한 서비스 수준 목표(SLO)를 충족하기 위해, 현대의 대형 언어 모델(LLMs)은 프리필(prefill) 단계와 디코딩(decoding) 단계를 분리하고 이를 별개의 GPU에 배치한다.

    #LLM inference #dynamic scaling #GPU orchestration #goodput optimization #serving architecture
EUNO.NEWS
RSS GitHub © 2026