[Paper] Remoe: 서버리스 컴퓨팅에서 효율적이고 저비용인 MoE 추론을 향하여

발행: 1주 전 (2025년 12월 21일 오후 07:27 GMT+9)

9 min read

원문: arXiv

Source: arXiv - 2512.18674v1

개요

이 논문은 Remoe라는 시스템을 소개합니다. 이 시스템은 대규모 Mixture‑of‑Experts (MoE) 언어 모델의 추론을 서버리스 환경에서 저렴하고 빠르게 수행하도록 합니다. GPU, CPU, 그리고 온‑디맨드 서버리스 함수 간에 작업을巧妙하게 분할함으로써, Remoe는 메모리 압박과 계산 비용을 모두 줄여줍니다—이는 급증하는 LLM 워크로드를 제공할 때 주요 문제점입니다.

Key Contributions

이기종 실행 모델 – 비전문가(밀집) 레이어는 GPU에서 실행되고 전문가 레이어는 CPU에서 실행됩니다; 사용 빈도가 낮은 전문가들은 별도의 서버리스 함수로 오프로드됩니다.
Similar‑Prompt Search (SPS) – 이전에 본 프롬프트와의 의미적 유사성을 측정하여 새로운 요청에 대해 어떤 전문가가 활성화될지 예측하는 경량 알고리즘.
Main‑Model Pre‑allocation (MMP) – 과다 프로비저닝 없이 서비스 수준 목표(SLO)를 보장하는 최악의 경우 메모리 추정기.
Joint memory‑replica optimizer – 배치 및 복제 문제를 라그랑주 이중문제로 정의하고 최장 처리 시간(LPT) 휴리스틱으로 해결하여 지연 시간, 비용, 메모리 사용량의 균형을 맞춥니다.
Prototype on Kubernetes – 여러 LLM 벤치마크에서 평가된 엔드‑투‑엔드 구현으로, 기존 접근 방식에 비해 57 % 비용 절감 및 47 % 낮은 콜드 스타트 지연을 달성했습니다.

방법론

1. 시스템 파티셔닝

MoE 모델의 주요 (dense) 부분은 GPU에 상주하여 행렬 곱셈에 대한 높은 처리량을 활용합니다.
각 전문가 (비교적 작은 피드‑포워드 서브네트워크)는 CPU 코어에 할당됩니다; 전문가가 희소하게 활성화되기 때문에 CPU 메모리만으로 충분합니다.
과거 활성화 빈도에 기반해 드물게 선택되는 전문가들은 독립적인 서버리스 함수(e.g., AWS Lambda, Azure Functions)로 패키징됩니다. 필요할 때 해당 함수를 즉시 호출하여 상주 메모리 사용량을 최소화합니다.

2. 전문가 활성화 예측 (SPS)

들어오는 프롬프트에 대해 Remoe는 짧은 임베딩을 계산합니다(예: 경량 인코더 사용).
그런 다음 최근 프롬프트 캐시에서 의미적으로 가장 유사한 항목을 찾아 해당 전문가 선택 패턴을 재사용합니다.
이 예측은 서브밀리초 수준으로 빠르며, 필요한 서버리스 함수를 미리 워밍업할 만큼 충분히 정확합니다.

3. 메모리 보장 (MMP)

저자들은 어떤 요청에 대해서도 동시에 활성화될 수 있는 전문가 수에 대한 최악‑경우 상한을 도출합니다.
이 상한을 이용해 GPU/CPU 메모리를 사전 할당함으로써 SLO(예: 95번째 백분위 지연시간 < X ms)를 리소스를 과다 할당하지 않고 충족시킵니다.

4. 최적화 프레임워크

전문가 배치 문제(CPU와 서버리스 중 어느 곳에 배치할지)와 복제 계수(각 전문가를 몇 개 복사해 두고 워밍업할지)는 볼록 라그랑지안 형태로 표현됩니다.
이중 문제를 풀어 각 결정에 대한 한계 비용을 얻고, LPT 휴리스틱을 사용해 전문가를 워커에 할당해 전체 지연시간(메이크스팬)을 최소화합니다.

Results & Findings

지표	Baseline (state‑of‑the‑art)	Remoe
Inference cost (per 1 M tokens)	$0.112	$0.048 (‑57 %)
Cold‑start latency	210 ms	112 ms (‑47 %)
Peak memory usage (GPU)	22 GB	13 GB (‑41 %)
99‑th‑percentile latency	420 ms	298 ms (‑29 %)

비용 절감은 주로 전문가 파라미터의 대부분을 GPU 외부로 이동하고 필요할 때만 로드함으로써 발생합니다.
SPS는 > 92 %의 쿼리에 대해 활성 전문가 집합을 정확히 예측하여 추가 서버리스 호출 오버헤드를 무시할 수 있게 합니다.
LPT‑based scheduler는 전체 탐색에 비해 평균 5 % 이내의 근접 최적 makespan을 달성합니다.

실용적인 시사점

서버리스‑우선 LLM 서비스 – 기업은 이제 GPU‑집약적인 VM을 유지하지 않고도 MoE 기반 챗봇이나 코드 생성기를 제공할 수 있으며, 대부분의 작업은 저렴한 CPU나 사용량 기반 함수에서 실행됩니다.
비용 효율적인 급증 처리 – 트래픽 급증 시, Remoe는 서버리스 전문가를 즉시 확장하여 드문 쿼리에 대해 GPU 용량을 과다 프로비저닝할 필요를 없앱니다.
간소화된 DevOps – 메모리 사전 할당 보장은 CI/CD 파이프라인에서 SLO를 설정하기 쉽게 하며, 개발자는 결정론적인 지연 시간 예산에 의존할 수 있습니다.
엣지 인식 배포 – 전문가를 어떤 컴퓨팅 노드에도 배치할 수 있기 때문에, 대역폭이 제한된 엣지‑클라우드 하이브리드 추론에 유사한 패턴을 사용할 수 있습니다.

개발자에게 핵심적인 교훈은 “빠르지만 비용이 많이 드는 GPU 추론”과 “저렴하지만 느린 밀집 모델” 사이에서 선택할 필요가 없다는 것입니다. Remoe는 기존 서버리스 플랫폼과 표준 Kubernetes 도구를 활용한 중간 지점을 제공합니다.

제한 사항 및 향후 작업

Prediction accuracy trade‑off – SPS는 매우 새로운 프롬프트에 대해 전문가 집합을 잘못 예측할 수 있어 추가적인 서버리스 콜드 스타트가 발생할 수 있습니다.
CPU‑bound expert execution – 대부분의 전문가에게는 CPU가 충분하지만, 매우 큰 전문가 네트워크는 CPU 코어를 포화시킬 수 있어 추가 프로파일링이 필요합니다.
Vendor lock‑in – 프로토타입은 Kubernetes와 특정 서버리스 런타임에 의존하므로, 다른 오케스트레이션 시스템으로의 이식성 검증이 필요합니다.
Security & isolation – 전문가를 공유 서버리스 함수에 오프로드하면 모델 유출에 대한 우려가 생깁니다. 향후 작업에서는 암호화 실행이나 TEE와 같은 방안을 탐색할 수 있습니다.

저자들은 옵티마이저를 멀티 테넌트 시나리오를 처리하도록 확장하고, 실시간으로 오예측으로부터 학습하는 적응형 SPS 모델을 탐구할 것을 제안합니다.

저자

Wentao Liu
Yuhao Hu
Ruiting Zhou
Baochun Li
Ne Wang

논문 정보

arXiv ID: 2512.18674v1
분류: cs.DC, cs.AI
발행일: 2025년 12월 21일
PDF: Download PDF

[Paper] Remoe: 서버리스 컴퓨팅에서 효율적이고 저비용인 MoE 추론을 향하여

개요

Key Contributions

방법론

1. 시스템 파티셔닝

2. 전문가 활성화 예측 (SPS)

3. 메모리 보장 (MMP)

4. 최적화 프레임워크

Results & Findings

실용적인 시사점

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] 클라우드 애플리케이션의 코드 관련 사고 근본 원인 분석을 위한 Agentic Structured Graph Traversal

[Paper] 프루닝을 게임으로: 균형 기반 신경망 희소화

[Paper] 설명 가능한 Multimodal Regression via Information Decomposition

[Paper] A2P-Vis: 분석기-프레젠터 에이전틱 파이프라인을 통한 시각적 인사이트 생성 및 보고