[Paper] 어디서 나눌까? 엣지 추론을 위한 DNN 파티셔닝의 Pareto‑Front 분석

발행: 1주 전 (2026년 1월 13일 오전 06:57 GMT+9)

9 min read

원문: arXiv

Source: arXiv - 2601.08025v1

개요

Raspberry Pi와 같은 엣지 디바이스나 저전력 GPU에 딥 뉴럴 네트워크(DNN)를 배포하는 것은 제한된 연산 능력, 메모리, 네트워크 대역폭 때문에 종종 제약을 받는다. 이 논문은 DNN 파티셔닝을 단일 목표인 “속도를 빠르게” 하는 문제로 보지 않고, 특히 현실적인 변동 네트워크 환경에서 지연 시간과 처리량 사이의 다중 목표 트레이드오프로 재구성한다. 저자들은 ParetoPipe이라는 오픈소스 프레임워크를 소개한다. 이 프레임워크는 파레토 프론트에서 최적의 분할 지점을 체계적으로 찾아내어, 엔지니어들이 엣지 추론 시 속도와 데이터 전송률을 실용적으로 균형 맞출 수 있게 한다.

주요 기여

Pareto‑front 기반 파티셔닝: 지연 시간과 처리량을 동시에 목표로 삼고 Pareto 분석을 사용해 최적의 분할 지점을 찾습니다.
포괄적인 벤치마크 스위트: 이기종 테스트베드(여러 Raspberry Pi와 GPU 지원 엣지 서버)에서 파이프라인 파티셔닝 추론을 다양한 네트워크 시나리오에 걸쳐 평가합니다.
오픈소스 툴체인 (ParetoPipe): 이중 통신 백엔드(PyTorch RPC와 경량 커스텀 프로토콜)를 제공하고, 모델 슬라이싱을 위한 유연한 API와 자동 Pareto‑front 생성을 위한 스크립트를 포함합니다.
실증적 인사이트: 네트워크 변동성이 지연‑처리량 트레이드오프를 어떻게 재구성하는지 정량화하고, 직관에 반하는 파티션 선택이 단순한 “layer‑X에서 분할” 휴리스틱보다 우수함을 밝혀냅니다.

방법론

Model & Device Profiling – 저자들은 테스트베드에 있는 각 디바이스별로 모든 DNN 레이어의 연산 시간과 메모리 사용량을 프로파일링하고, 중간 활성화의 데이터 크기도 측정한다.
Search Space Construction – 가능한 모든 연속 파티션 지점(예: “레이어 0‑k 를 디바이스 A에서 실행하고 나머지를 디바이스 B에서 실행”)을 열거한다. 각 후보 분할에 대해, 프로파일링된 수치와 다양한 대역폭/지연 조건을 나타낼 수 있도록 조정 가능한 네트워크 모델을 사용해 종단 간 지연시간과 달성 가능한 처리량을 추정한다.
Pareto Front Extraction – 후보 분할들을 지연‑처리량 공간에 플롯한다; 지배되지 않는(즉, 다른 어떤 분할도 더 빠르고 처리량이 높지 않은) 분할들이 파레토 프론트를 형성한다.
Implementation & Validation – ParetoPipe는 선택된 분할을 실제 테스트베드에 구현하고, PyTorch RPC 또는 맞춤형 경량 소켓 레이어를 통해 실제 추론 파이프라인을 실행하여 분석 예측을 검증한다.
Scenario Sweeps – 실험은 네트워크 조건(Wi‑Fi, Ethernet, 제한된 링크) 및 배치 크기를 다양하게 변화시켜 파레토 프론트가 어떻게 이동하는지 관찰한다.

Results & Findings

Scenario	Best‑Latency Split	Best‑Throughput Split	Pareto‑Front Shape
High‑bandwidth LAN (1 Gbps)	All layers on edge GPU (≈ 3 ms latency)	Split after early conv layers (≈ 150 fps)	Narrow front – latency and throughput improve together
Moderate Wi‑Fi (30 Mbps)	Early split: first few layers on Pi, rest on GPU (≈ 7 ms)	Later split: more work on Pi to reduce traffic (≈ 80 fps)	Wider front – clear trade‑off
Low‑bandwidth (5 Mbps)	Heavy off‑loading to Pi (≈ 12 ms)	Maximize local compute on Pi (≈ 30 fps)	Very wide front – latency gains come at steep throughput loss

Key takeaways

Network bandwidth is a first‑order factor; the optimal split can move dramatically when bandwidth drops.
The Pareto‑optimal points often lie in the middle of the layer chain, contradicting the common “edge‑only” or “cloud‑only” extremes.
Using the lightweight custom RPC reduces communication overhead by ~15 % compared with vanilla PyTorch RPC, tightening the Pareto front.

Practical Implications

Dynamic Edge Orchestration – 개발자는 네트워크 상황이 변함에 따라(예: 모바일 엣지, IoT 게이트웨이) 실시간으로 분할을 재평가하는 런타임 매니저에 ParetoPipe의 의사결정 엔진을 삽입할 수 있다.
Resource‑Aware Model Deployment – 배치 크기를 수동으로 조정하거나 모델을 프루닝하는 대신, 엔지니어는 Pareto 분석을 통해 지연 시간에 대한 서비스 수준 목표(SLA)를 충족하면서 처리량을 최대화하는 분할을 선택하도록 할 수 있다.
Cost‑Effective Scaling – 작은 엣지 클러스터(Raspberry Pis, Jetson Nano 등)는 최적의 파이프라인 분할을 활용함으로써 비싼 하드웨어를 구매하지 않고도 GPU 수준의 처리량을 집합적으로 달성할 수 있다.
Framework Integration – ParetoPipe는 PyTorch RPC와 최소한의 커스텀 프로토콜을 모두 제공하므로 기존 PyTorch 파이프라인에 바로 삽입하거나 최소한의 연결 코드만으로 비‑Python 환경에서도 사용할 수 있다.

제한 사항 및 향후 작업

정적 레이어 세분화 – 현재 검색은 전체 레이어 분할만 고려합니다; 보다 세밀한 텐서 파티셔닝을 통해 추가적인 파레토 포인트를 얻을 수 있습니다.
에너지 소비 모델링 미흡 – 지연 시간과 처리량이 중요하지만, 엣지 배포에서는 전력도 신경 씁니다; 프레임워크에 에너지를 세 번째 목표로 포함시키는 작업은 향후 과제로 남겨둡니다.
대규모 클러스터 확장성 – 실험은 4노드 라즈베리 파이 클러스터와 하나의 GPU 서버에 제한되었습니다; 분석을 수십 개의 이기종 노드로 확장하려면 탐색 공간을 휴리스틱으로 가지치기해야 할 수 있습니다.
네트워크 모델 단순화 – 실제 무선 네트워크는 버스트 손실 및 지터를 보입니다; 확률적 네트워크 모델을 도입하면 파레토 프론트를 더욱 견고하게 만들 수 있습니다.

ParetoPipe는 개발자들이 엣지 추론을 단일 목표 해킹이 아닌 균형 잡힌 최적화 문제로 다룰 수 있는 길을 열어줍니다. 전체 지연‑처리량 경계를 공개함으로써, 변화하는 엣지 환경에 발맞출 수 있는 보다 스마트하고 적응적인 배포를 가능하게 합니다.

저자

Adiba Masud
Nicholas Foley
Pragathi Durga Rajarajan
Palden Lama

논문 정보

arXiv ID: 2601.08025v1
Categories: cs.DC
Published: 2026년 1월 12일
PDF: Download PDF

[Paper] 어디서 나눌까? 엣지 추론을 위한 DNN 파티셔닝의 Pareto‑Front 분석

개요

주요 기여

방법론

Results & Findings

Practical Implications

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] 공간 최적, 계산 최적, 토폴로지 무관, 처리량 확장 가능한 인과 전달을 위한 하이브리드 버퍼링

[Paper] Konflux: 서버리스 애플리케이션을 위한 최적화된 함수 융합

[Paper] AFLL: 순환 인과 학습 기반 MMO 게임 서버를 위한 실시간 부하 안정화

[Paper] Quantum Entanglement을 이용한 Distributed Storage에서 Storage‑Bandwidth Tradeoff 깨기