[Paper] PARD: 인퍼런스 파이프라인의 Goodput 향상을 위한 Proactive Request Dropping
Source: arXiv - 2602.08747v1
Overview
현대 AI 서비스는 종종 여러 딥‑뉴럴‑네트워크(DNN) 모델을 inference pipeline으로 결합하여, 엄격한 지연 예산 내에 결과를 반환해야 합니다. 요청이 과도하게 쌓이면 많은 요청이 마감 시간을 놓치고 결국 타임‑아웃됩니다. 기존 시스템은 타임‑아웃이 임박한 only after 요청을 삭제하여, 계산 자원을 낭비하고 여전히 많은 요청이 완료되지 않은 상태로 남깁니다. 논문 PARD: Enhancing Goodput for Inference Pipeline via Proactive Request Dropping은 proactive 삭제 전략을 제안합니다. 이 전략은 문제가 되기 before when 및 which 요청을 삭제할지를 결정하여, 시스템이 제공하는 유용한 작업량(goodput)을 크게 향상시킵니다.
주요 기여
- Proactive Dropping Framework (PARD): 과부하를 조기에 예측하고 요청을 사전적으로 드롭하는 런타임 인식 컨트롤러를 도입합니다.
- Adaptive Priority Scheduler: 남은 지연 예산과 현재 워크로드 강도에 기반해 진행 중인 요청에 동적으로 우선순위를 할당하여 “올바른” 요청이 살아남도록 보장합니다.
- Comprehensive Evaluation: 64‑GPU 클러스터에서 PARD가 기존 최고 시스템 대비 16 %–176 % 좋은 처리량을 향상시키고 전체 드롭 비율과 낭비된 GPU 사이클을 각각 최대 17배 및 62배 감소시킴을 보여줍니다.
- Generalizable Design: 모든 다중 모델 추론 파이프라인에서 작동하며 기본 DNN 모델에 대한 변경을 필요로 하지 않습니다.
Source: …
Methodology
- Runtime Monitoring: PARD는 파이프라인을 통과하는 각 요청에 대해 대기열 길이, 단계별 처리 시간, 남은 지연 예산을 지속적으로 측정합니다.
- Predictive Overload Detection: 이러한 메트릭을 활용해 가벼운 컨트롤러가 파이프라인이 가까운 미래에 마감 시간을 놓칠지 여부를 예측합니다.
- When‑to‑Drop Decision: 과부하가 예측되면, 컨트롤러는 dropping window를 트리거합니다—일부 요청이 삭제되는 짧은 구간입니다.
- Which‑to‑Drop Selection: 진행 중인 각 요청은 우선순위 점수를 받습니다:
- Higher priority → 남은 지연 예산이 크고, 계산 비용이 낮으며, 고가치 서비스 티어에 속함.
- Lower priority → 마감이 촉박하고, 계산량이 많으며, 저가치 티어에 속함.
컨트롤러는 가장 낮은 우선순위의 요청부터 삭제하여 나머지 요청에 리소스를 할당합니다.
- Feedback Loop: 각 dropping window가 끝난 후 시스템은 워크로드를 재평가하고 향후 삭제의 공격성을 조정합니다(예: 창을 넓히거나 좁히기).
전체 파이프라인은 변경되지 않으며, PARD는 기존 추론 서빙 스택(예: TensorRT‑Inference Server, Triton) 위에 얇은 오케스트레이션 레이어로 배치될 수 있습니다.
결과 및 발견
| 메트릭 | 기준(반응형 드롭핑) | PARD |
|---|---|---|
| Goodput (초당 유용 요청 수) | 1.0× (reference) | 1.16× – 2.76× |
| 전체 드롭 비율 | 12 % | 6 % – 7.5 % |
| 낭비된 GPU 연산 (드롭된 요청에 사용된 사이클) | 1.0× | 0.06× – 0.63× |
| 레이턴시 예산 초과 확률 | 8 % | <2 % |
주요 시사점:
- 조기 드롭은 파이프라인이 포화되는 것을 방지해 큐를 얕게 유지하고 테일 레이턴시를 감소시킵니다.
- 우선순위 인식 선택은 고가치 또는 저비용 요청이 살아남도록 하여 Goodput을 직접적으로 높입니다.
- 시스템은 확장 가능합니다: 64‑GPU 클러스터에서 현실적인 워크로드(이미지 분류, 객체 탐지, 추천)를 처리할 때도 모델 깊이와 배치 크기에 따라 이득이 유지됩니다.
실용적 시사점
- 클라우드 AI 제공업체용: PARD는 하드웨어를 추가하지 않고 기존 GPU 풀에서 더 많은 수익을 창출하도록 추론 서비스 플랫폼에 통합될 수 있습니다.
- 엣지 및 온‑디바이스 배포: 제한된 연산 능력을 가진 장치(예: 자율 드론, AR 안경)는 사전 드롭을 사용해 배터리를 절약하면서 실시간 응답을 보장할 수 있습니다.
- SLA‑인식 서비스: 100 ms 미만 지연을 약속하는 SaaS 제품은 PARD를 도입해 SLA를 보다 신뢰성 있게 충족하고 위약 비용을 줄일 수 있습니다.
- 개발자 도구: 우선순위 API는 간단하며(예산, 가중치, 티어 설정) SDK에 노출시켜 개발자가 어떤 요청을 “핵심 미션”으로 세밀하게 조정할 수 있습니다.
전반적으로, PARD는 “필요할 때만 드롭한다”는 사고방식에서 “필요하기 전에 스마트하게 드롭한다”는 사고방식으로 전환시킵니다. 이 변화는 최소한의 코드 수정으로 구현 가능하며 측정 가능한 ROI를 제공합니다.
제한 사항 및 향후 연구
- 예측 정확도: 과부하 추정기는 단기 통계에 의존하므로, 급격한 급증(예: 플래시 크라우드)으로 인해 가끔 마감 시간 초과가 발생할 수 있습니다.
- 우선순위 구성 오버헤드: 이기종 서비스에 대한 최적 우선순위 가중치를 결정하는 것이 쉬운 일이 아니며, 자동 튜닝은 향후 연구 과제로 남겨둡니다.
- 모델별 최적화: PARD는 모든 단계를 균일하게 처리하므로, 모델 수준 프로파일링과의 더 깊은 통합이 의사결정을 더욱 향상시킬 수 있습니다.
- GPU 클러스터를 넘어 확장: 저자들은 이 접근법이 이기종 하드웨어(TPU, FPGA) 및 리소스 격리가 복잡성을 더하는 멀티 테넌트 환경에서 어떻게 작동하는지 탐구할 계획입니다.
저자
- Zhixin Zhao
- Yitao Hu
- Simin Chen
- Mingfang Ji
- Wei Yang
- Yuhao Zhang
- Laiping Zhao
- Wenxin Li
- Xiulong Liu
- Wenyu Qu
- Hao Wang
논문 정보
- arXiv ID: 2602.08747v1
- 분류: cs.DC
- 출판일: 2026년 2월 9일
- PDF: PDF 다운로드