[Paper] Edge SoC에서 Sparse Models의 Multi-DNN Inference
Source: arXiv - 2603.09642v1
개요
엣지 디바이스는 이제 여러 딥‑뉴럴‑네트워크(DNN) 모델을 동시에 실행해야 합니다—예를 들어 비전, 오디오, 그리고 센서‑퓨전 파이프라인을 모두 같은 칩에서 구동하는 것을 생각해 볼 수 있습니다. 논문 *“Multi‑DNN Inference of Sparse Models on Edge SoCs”*는 실용적인 병목 현상을 다룹니다: 기존 런타임은 각 모델의 희소 변형을 하나(또는 몇 개)만 선택할 수 있어, 이기종 가속기에서 최적이 아닌 배치를 강요하고 서비스‑레벨 목표(SLO)를 놓치게 합니다. 저자들은 model stitching이라는 방식을 제안합니다. 이는 기존 희소 모델의 서브‑그래프를 실시간으로 재조합하는 방법이며, 실제 엣지 System‑on‑Chip(SoC)에서 동작하는 SparseLoom이라는 프로토타입을 통해 이를 입증했습니다.
주요 기여
- Model Stitching Concept – 사전 가지치기된 모델 풀에서 서브 그래프를 재사용하여 새로운 희소 모델 변형을 만들기 위한 경량, 훈련 없이 가능한 기법을 소개합니다.
- SparseLoom Runtime – 모델 스티칭을 이종 컴퓨팅 유닛(CPU, GPU, DSP, NPU)을 인식하는 스케줄러와 통합한 엔드‑투‑엔드 시스템입니다.
- SLO‑Driven Allocation – 다중 DNN 스케줄링을 확장하여 작업별 지연 예산을 고려함으로써 마감 시간 초과를 크게 감소시킵니다.
- Comprehensive Evaluation – 기존 최고 수준의 다중 DNN 추론 프레임워크와 비교하여 SLO 위반이 최대 74 % 감소, 처리량이 2.31배 증가, 평균 메모리 사용량이 28 % 절감됨을 보여줍니다.
- Open‑Source Artefacts – 저자들은 코드와 벤치마크 스위트를 공개하여 재현성을 보장하고 커뮤니티가 빠르게 채택할 수 있도록 합니다.
방법론
- Sparse Model Pool – 저자들은 각 DNN의 희소화된 버전(예: 70 % 및 90 % 가중치 프루닝)의 컬렉션으로 시작합니다.
- Graph Partitioning – 각 모델은 독립적으로 실행될 수 있는 논리적 서브‑그래프(레이어 또는 블록)로 분할됩니다.
- Stitching Engine – 런타임에 SparseLoom은 서로 다른 희소도 수준에서 호환 가능한 서브‑그래프를 선택하여 목표 메모리/지연 예산을 만족하는 stitched 모델을 조립합니다. 서브‑그래프가 동일한 아키텍처와 가중치 레이아웃을 공유하기 때문에 추가 학습이나 미세 조정이 필요하지 않습니다.
- Heterogeneous Scheduler – 이어서 스티치된 모델은 가속기‑특정 희소성 지원, 메모리 대역폭, 작업별 SLO를 고려한 비용 모델을 사용해 SoC의 이기종 컴퓨팅 유닛에 매핑됩니다.
- Evaluation Platform – 실험은 현실적인 멀티‑DNN 워크로드(객체 탐지 + 음성 인식 + 포즈 추정)를 사용하여 인기 있는 엣지 SoC(예: Qualcomm Snapdragon, NVIDIA Jetson)에서 수행됩니다. 기준선으로는 TVM‑기반 멀티‑DNN 런타임 및 수작업으로 만든 정적 모델 선택이 포함됩니다.
결과 및 발견
| 지표 | SparseLoom vs. Baseline |
|---|---|
| SLO 위반률 | ↓ 74 % (max) |
| 처리량 (추론 / 초) | ↑ 2.31× |
| 메모리 사용량 | ↓ 28 % on average |
| 작업당 지연시간 | Meets 95 % of SLOs vs. 68 % for baseline |
| 스케줄러 오버헤드 | < 5 ms per scheduling decision (negligible) |
이러한 향상은 주로 두 가지 요인에 기인합니다: (1) 각 서브‑그래프에 just‑right 희소도 수준을 선택할 수 있어 정적 모델의 “one‑size‑fits‑all” 페널티를 피하고, (2) 스케줄러가 더 조밀한 서브‑그래프를 빠른 유닛에 배치하고 초희소 부분은 메모리 제한이 있는 코어에 유지함으로써 가속기 활용도가 향상됩니다.
실용적인 함의
- Dynamic Edge Pipelines – 개발자는 이제 새로운 센서 모델을 추가하는 등 모듈식 추론 파이프라인을 수동으로 재‑프루닝하거나 재‑학습하지 않고도 구축할 수 있습니다.
- Reduced Firmware Footprint – 스티치된 모델이 기존 바이너리에서 조합되기 때문에 펌웨어 크기가 낮게 유지됩니다—제한된 디바이스에서 OTA 업데이트에 필수적입니다.
- Improved QoE for Real‑Time Apps – SLO 위반이 감소하면 AR/VR 경험이 더 부드러워지고, 음성 비서가 더 신뢰성 있게 동작하며, 자율 주행 인식 스택이 더 안전해집니다.
- Cost‑Effective Hardware Utilisation – 제조업체는 SparseLoom의 스케줄러를 활용해 단일 SoC SKU만 제공해도 다양한 워크로드 요구를 충족시킬 수 있어 고성능 가속기의 필요성을 미룰 수 있습니다.
- Easier Portability – 오픈‑소스 런타임이 벤더‑특정 SDK를 추상화하여 Snapdragon에서 Edge‑TPU 또는 Jetson 플랫폼으로 멀티‑DNN 워크로드를 이동하는 것이 더 쉬워집니다.
제한 사항 및 향후 작업
- 스티칭의 세분성 – 현재 구현은 블록 수준에서 스티칭을 수행합니다; 레이어별로 더 세밀한 스티칭을 하면 추가적인 절감 효과를 얻을 수 있지만, 보다 정교한 종속성 추적이 필요합니다.
- 희소성 호환성 – 모든 희소성 패턴(예: 비구조적 vs. 구조적)이 가속기 전반에 걸쳐 동일하게 지원되는 것은 아니며, 하드웨어 지원이 부족할 경우 스케줄러가 더 조밀한 서브 그래프로 되돌아갈 수 있습니다.
- 정적 모델 풀 – 사전 프루닝된 모델 풀은 사전에 선별되어야 하며, 이 풀의 자동 생성(예: 신경망 아키텍처 탐색을 통한)은 향후 연구 과제로 남겨져 있습니다.
- 에너지 측정 – 처리량과 메모리는 측정했지만, 배터리 구동 장치에서의 상세한 전력 효율 분석은 아직 진행 중입니다.
저자들은 장치 내에서 새로운 희소성 수준을 생성할 수 있는 적응형 프루닝을 탐구하고, 점점 더 일반화되는 엣지 AI에서 변형기 기반 모델을 처리할 수 있도록 SparseLoom을 확장할 계획입니다.
저자
- Jiawei Luo
- Di Wu
- Simon Dobson
- Blesson Varghese
논문 정보
- arXiv ID: 2603.09642v1
- 분류: cs.DC, cs.LG, cs.PF
- 출판일: 2026년 3월 10일
- PDF: PDF 다운로드