[Paper] Edge GPU 시스템에서 추론 프로세스의 성능 격리

발행: 1주 전 (2026년 1월 12일 오후 11:49 GMT+9)

10 min read

원문: arXiv

Source: arXiv - 2601.07600v1

개요

이 논문은 최신 NVIDIA GPU 격리 기능인 Multi‑Process Service (MPS), Multi‑Instance GPU (MIG), 그리고 새롭게 도입된 Green Contexts가 엣지 디바이스에서 딥러닝 추론의 예측 가능성에 어떤 영향을 미치는지 평가합니다. 데이터센터급 A100과 엣지 중심 Jetson Orin을 모두 벤치마크함으로써, 저자들은 안전이 중요한 애플리케이션이 필요로 하는 타이밍 보장을 제공하면서도 GPU 활용도를 높게 유지할 수 있는 메커니즘을 보여줍니다.

주요 기여

MPS, MIG, Green Contexts를 두 개의 매우 다른 NVIDIA GPU(A100 vs. Jetson Orin)에서 체계적으로 비교했습니다.
정량적 격리 지표: 혼합 워크로드 시나리오에서의 지연 시간 변동, 처리량 손실, 메모리 경쟁을 제시했습니다.
MIG가 양 플랫폼 모두에서 강력한 시간 및 메모리 격리를 제공함을 입증했으며, 작은 파티션에서는 눈에 띄는 성능 오버헤드가 발생함을 확인했습니다.
Green Contexts를 저오버헤드, 세밀한 SM(Streaming Multiprocessor) 할당 기법으로 소개했으며, 엣지 GPU에서 잘 작동하지만 메모리 격리가 부족함을 지적했습니다.
공유 GPU 위에서 안전‑중요 추론 파이프라인을 구축하는 개발자를 위한 가이드라인 및 모범 사례를 제시했습니다.
열린 과제 식별(예: Green Contexts의 메모리 보호 부재, 저전력 디바이스에서의 MIG의 거친 granularity)과 향후 연구 로드맵을 제시했습니다.

방법론

플랫폼 선택 – 실험은 NVIDIA A100(PCIe)와 Jetson Orin(통합 ARM‑GPU)에서 수행되었습니다.
워크로드 – 별도의 프로세스 또는 컨테이너로 실행되는 대표적인 추론 모델 세트(ResNet‑50, BERT, YOLO‑v5)입니다.
격리 구성 –
- MPS: 여러 프로세스가 동일한 GPU 컨텍스트를 공유합니다.
- MIG: GPU를 최대 7개(A100) 또는 4개(Orin) 인스턴스로 분할하며, 각 인스턴스는 전용 SM, 메모리 및 캐시를 가집니다.
- Green Contexts: 전체 MIG 인스턴스를 만들지 않고도 프로세스에 SM의 일부를 고정하는 맞춤형 드라이버 확장입니다.
수집된 메트릭 – 엔드‑투‑엔드 추론 지연시간(평균, 95번째 백분위수, 지터), 처리량, GPU 활용도 및 메모리 대역폭 경쟁.
시간적 격리 테스트 – “고우선순위” 추론 작업이 “백그라운드” GPU 집약 작업(예: 비디오 인코딩)과 동시에 실행되어 백그라운드 부하가 중요한 작업의 지연시간에 얼마나 영향을 미치는지 확인합니다.
통계 분석 – 각 구성당 30회 이상 반복 실행하여 신뢰 구간을 확보하고 격리 메커니즘 자체에 의해 발생하는 변동성을 분리합니다.

결과 및 발견

메커니즘	시간 격리	메모리 격리	평균 지연 오버헤드	주요 관찰 사항
MPS	보통 (지터 최대 +30 ms)	아니오 (공유 메모리)	~5 % (A100), ~8 % (Orin)	활성화가 간단하지만, 백그라운드 작업이 GPU를 포화시킬 때 경쟁이 급증합니다.
MIG	강함 (지터 < 5 ms)	예 (인스턴스당 전용 VRAM)	소형 슬라이스는 10‑15 %, 대형 슬라이스는 < 5 %	두 플랫폼 모두에서 작동하지만, Orin에서는 세밀한 슬라이싱이 제한됩니다 (최대 4 인스턴스).
Green Contexts	좋음 (지터 ≈ 10 ms)	아니오 (공유 메모리)	< 3 %	오버헤드가 매우 낮으며, SM‑레벨 세분화로 할당 가능; MIG를 사용할 수 없거나 너무 거친 경우 엣지에 이상적.

MIG는 일관되게 가장 예측 가능한 지연을 제공하여 하드 실시간 제약에 가장 안전한 선택이지만, GPU를 많은 작은 인스턴스로 분할할수록 성능 페널티가 증가합니다.
Green Contexts는 Jetson Orin에서 거의 제로에 가까운 오버헤드를 달성했으며, 개발자가 중요한 추론을 위해 몇 개의 SM만 예약하고 나머지는 보조 작업(예: 센서 융합)에 사용할 수 있게 합니다.
MPS는 가끔 발생하는 지연 스파이크를 허용할 수 있는 워크로드에 유용하며, GPU가 완전히 활용될 때 가장 높은 전체 처리량을 제공합니다.

Practical Implications

Safety‑critical edge AI(자율 드론, 의료 영상, 산업 로봇)에서는 이제 추측이 아니라 구체적인 격리 전략을 선택할 수 있습니다. 엄격한 타이밍 보장이 필요할 경우, MIG가 가장 적합하며, Orin과 같은 소형 디바이스에서도 사용할 수 있습니다.
Resource‑constrained deployments에서는 Green Contexts를 활용해 메모리 단편화 없이 추론을 위한 “fast lane”을 만들 수 있어, 나머지 GPU를 비‑핵심 작업에 자유롭게 사용할 수 있습니다.
CI/CD pipelines for AI services에서는 Docker 또는 Kubernetes GPU‑device 플러그인에 이러한 격리 설정을 포함시켜 다중 테넌트 추론 서버가 서로 간섭하지 않도록 할 수 있습니다.
Cost optimization: 고성능 GPU(A100)를 MIG로 파티셔닝하면 여러 추론 서비스를 동일 하드웨어에서 동시에 실행할 수 있어 클라우드 GPU 비용을 절감하면서도 SLA를 충족할 수 있습니다.
Developer tooling: 논문의 방법론을 오픈소스 스크립트(CUDA events, Nsight Systems)로 재현하여 직접 모델을 프로파일링하고 적절한 SM‑to‑process 매핑을 결정할 수 있습니다.

Limitations & Future Work

Memory isolation missing in Green Contexts – VRAM 파티셔닝이 없으면, 악성 프로세스가 여전히 캐시에서 중요한 데이터를 내쫓거나 페이지 폴트에 의한 정지를 일으킬 수 있습니다.
Coarse MIG granularity on low‑power GPUs – Jetson Orin은 최대 네 개의 인스턴스만 지원하므로, 많은 작은 슬라이스가 필요한 워크로드에 대한 유연성이 제한됩니다.
Benchmark scope – 세 가지 모델만 테스트했으며, 보다 다양한 아키텍처(예: transformer‑based vision models)를 포함하면 다른 경쟁 패턴이 드러날 수 있습니다.
Dynamic re‑partitioning – 이번 연구에서는 파티션을 고정했지만, 향후 작업에서는 워크로드에 따라 MIG 인스턴스를 실시간으로 확장·축소하는 등 런타임 적응을 탐색할 수 있습니다.
Security aspects – 시간적 격리는 다루었지만, 논문에서는 컨텍스트 간 사이드‑채널 누출을 평가하지 않았으며, 이는 멀티‑테넌트 엣지 배포에서 중요한 고려 사항입니다.

Overall, the research provides a clear, data‑driven roadmap for engineers who need predictable GPU inference on the edge, and it opens several avenues for tighter, more flexible isolation mechanisms in the next generation of NVIDIA devices.

저자

Juan José Martín
José Flich
Carles Hernández

논문 정보

arXiv ID: 2601.07600v1
카테고리: cs.OS, cs.DC
출판일: 2026년 1월 12일
PDF: PDF 다운로드

[Paper] Edge GPU 시스템에서 추론 프로세스의 성능 격리

개요

주요 기여

방법론

결과 및 발견

Practical Implications

Limitations & Future Work

저자

논문 정보

관련 글

[Paper] 공간 최적, 계산 최적, 토폴로지 무관, 처리량 확장 가능한 인과 전달을 위한 하이브리드 버퍼링

[Paper] Konflux: 서버리스 애플리케이션을 위한 최적화된 함수 융합

[Paper] AFLL: 순환 인과 학습 기반 MMO 게임 서버를 위한 실시간 부하 안정화

[Paper] Quantum Entanglement을 이용한 Distributed Storage에서 Storage‑Bandwidth Tradeoff 깨기