[Paper] Splitwise: LLM을 위한 Lyapunov-Assisted DRL 기반 협업 엣지-클라우드 추론
Source: arXiv - 2512.23310v1
(번역할 텍스트를 제공해 주시면 한국어로 번역해 드리겠습니다.)
Source: …
개요
오늘날의 대규모 언어 모델을 엣지 디바이스(스마트폰, IoT 보드, 자율 로봇)에서 배포하는 것은 큰 어려움입니다. 모델이 메모리에 들어가지 않으며, 로컬에서 실행하면 전력 소모가 크게 늘어납니다. 클라우드 전용 추론은 메모리 문제를 해결하지만, 지연 시간, 대역폭 비용이 증가하고 네트워크가 불안정할 때 신뢰성이 떨어집니다. Splitwise는 동적인 세밀한 엣지‑클라우드 파티셔닝 전략을 통해 워크로드와 네트워크 상황에 지속적으로 적응함으로써, 모델 품질을 희생하지 않으면서도 더 빠르고 친환경적인 추론을 제공합니다.
주요 기여
- 세분화된 파티셔닝 – 트랜스포머 레이어를 어텐션 헤드와 피드‑포워드 서브 블록으로 분할하여 기존 레이어 단위 분할을 훨씬 넘어서는 설계 공간을 확장합니다.
- Lyapunov 보조 DRL 컨트롤러 – Lyapunov 최적화로 정규화된 계층적 딥 강화 학습 정책으로, 지연 시간, 에너지, 정확도 손실을 동시에 최소화하고 확률적 요청 도착 시 큐 안정성을 보장합니다.
- 견고한 체크포인트 및 복구 – 간헐적인 네트워크 장애를 우아하게 처리하기 위해 지수 백오프 체크포인팅을 도입합니다.
- 포괄적인 평가 – Jetson Orin NX, Galaxy S23, Raspberry Pi 5에서 GPT‑2 (1.5 B), LLaMA‑7 B, LLaMA‑13 B를 사용한 실제 실험을 통해 최신 파티셔너 대비 최대 2.8× 지연 감소와 41 % 에너지 절감을 보여줍니다.
- QoS 보장 – 순수 클라우드 추론에 비해 95번째 백분위수 지연을 53‑61 % 감소시키면서 모델 정확도를 유지합니다.
방법론
-
Model Decomposition – 각 Transformer 레이어는 두 개의 논리적 서브‑블록으로 분할됩니다:
- (a) Multi‑head self‑attention (MHA) heads
- (b) Feed‑forward network (FFN)
이를 통해 배치 옵션이 크게 늘어납니다 (예: 일부 헤드는 엣지에, 다른 헤드는 클라우드에 배치).
-
Hierarchical DRL Policy –
- High‑level agent는 현재 큐 길이, 디바이스 배터리 상태, 네트워크 대역폭을 기반으로 얼마나 많은 서브‑블록을 오프로드할지 결정합니다.
- Low‑level agent는 정확히 어떤 서브‑블록(어떤 헤드, 어떤 FFN 슬라이스)을 엣지와 클라우드에 배치할지 선택합니다.
-
Lyapunov Optimization – Lyapunov 함수는 시스템 “드리프트”(큐 성장)를 측정합니다. 드리프트‑플러스‑패널티 항을 최소화함으로써 컨트롤러는 요청 큐가 안정적으로 유지되도록 보장하고(무한한 백로그 방지), 지연, 에너지, 정확도 손실의 가중합을 최적화합니다.
-
Checkpointing & Recovery – 각 추론 단계 후에 가벼운 체크포인트가 클라우드로 스트리밍됩니다. 전송이 실패하면 시스템은 지수적으로 백오프하고 재시도하여 전체 작업 실패를 방지합니다.
-
Training & Deployment – DRL 에이전트는 실제 요청 패턴과 대역폭 트레이스를 모방한 시뮬레이션 워크로드에서 오프라인으로 학습됩니다. 학습된 정책은 이후 엣지 디바이스에 경량 런타임 라이브러리 형태로 삽입됩니다.
결과 및 발견
| 플랫폼 | 모델 | 기준 (클라우드 전용) | Splitwise | 지연 시간 ↓ | 에너지 ↓ | 95번째 백분위 지연 시간 ↓ |
|---|---|---|---|---|---|---|
| Jetson Orin NX | LLaMA‑7B | 210 ms | 78 ms | 2.7× | 38 % | 58 % |
| Galaxy S23 | GPT‑2 1.5B | 180 ms | 65 ms | 2.8× | 41 % | 61 % |
| Raspberry Pi 5 | LLaMA‑13B | 420 ms | 150 ms | 2.8× | 35 % | 53 % |
- 정확도는 전체 클라우드 기준 대비 0.2 % 이내로 유지되어, 세분화된 분할이 눈에 띄는 양자화 또는 근사 오류를 발생시키지 않음을 확인했습니다.
- DRL 컨트롤러는 대역폭 급감(예: 30 Mbps에서 5 Mbps로) 시 더 많은 헤드를 엣지로 이동시켜 꼬리 지연 시간을 낮게 유지했습니다.
- 체크포인트 복구는 30 % 패킷 손실 상황에서도 < 5 ms의 오버헤드만 추가했습니다.
Source: …
Practical Implications
- Edge‑first AI products – 모바일 앱, AR/VR 경험, 그리고 로봇이 이제 반응성을 희생하거나 배터리를 과도하게 소모하지 않고도 정교한 LLM을 로컬에서 실행할 수 있습니다.
- Cost‑effective cloud usage – 가장 연산량이 많은 서브‑블록만 오프로드함으로써 데이터센터 부하와 트래픽 비용이 크게 감소합니다.
- Dynamic QoS provisioning – 서비스 제공자는 Splitwise를 내장해 사용자가 Wi‑Fi와 셀룰러 네트워크 사이를 이동할 때도 지연 시간 SLA를 보장할 수 있습니다.
- Developer‑friendly SDK – 저자들은 DRL 정책을 단순한
infer()호출 뒤에 추상화한 가벼운 C++/Python 라이브러리를 공개했으며, 기존 파이프라인에 손쉽게 통합할 수 있습니다. - Security & privacy – 사용자‑특화 컨텍스트를 처리하는 어텐션 헤드에 대해서는 민감한 프롬프트 데이터를 디바이스에 그대로 유지할 수 있어 클라우드 노출을 최소화합니다.
제한 사항 및 향후 작업
- 학습 오버헤드 – DRL 정책은 시뮬레이션 환경과 각 새로운 모델‑하드웨어 조합마다 몇 시간의 학습이 필요하며, 이는 빠른 프로토타이핑에 장벽이 될 수 있습니다.
- 모델 크기 한계 – 실험은 13 B 파라미터에서 중단되었으며, 70 B급 모델로 확장하려면 추가적인 계층적 분할이 필요할 수 있습니다(예: 여러 클라우드 노드에 걸쳐).
- 네트워크 가정 – 현재 설계는 비교적 안정적인 TCP 연결을 전제로 합니다; 버스트형 UDP 기반 스트리밍이나 위성 링크는 별도의 견고성 메커니즘이 필요합니다.
저자들이 제안한 향후 방향:
- 모델 간 정책 전이를 위한 메타‑러닝.
- 프레임워크를 다중 엣지 시나리오로 확장(예: 엣지‑투‑엣지 협업).
- 양자화 인식 분할을 도입하여 메모리 한계를 더욱 확장.
저자
- Abolfazl Younesi
- Abbas Shabrang Maryan
- Elyas Oustad
- Zahra Najafabadi Samani
- Mohsen Ansari
- Thomas Fahringer
논문 정보
- arXiv ID: 2512.23310v1
- 분류: cs.LG, cs.AI, cs.DC, cs.ET, cs.NI
- 발행일: 2025년 12월 29일
- PDF: PDF 다운로드