[Paper] Cornserve: 효율적인 Any-to-Any 멀티모달 모델 서빙
Source: arXiv - 2512.14098v1
개요
Cornserve는 Any‑to‑Any 멀티모달 모델 패밀리를 위해 설계된 새로운 서빙 시스템입니다—텍스트, 이미지, 비디오, 오디오를 입력으로 받아 그 중 어떤 조합이든 출력으로 생성할 수 있는 모델들입니다. 개발자가 모델의 계산 그래프를 한 번만 기술하면 자동으로 최적화된 배포 계획을 생성해 주어, Cornserve는 이러한 모델들의 유연성과 실제 프로덕션 추론의 제약 사이의 격차를 메워 줍니다.
주요 기여
- 통합 그래프 설명: 개발자가 이질적인 구성 요소(인코더, LLM, 확산 생성기 등)를 단일 모델 그래프에 선언할 수 있는 간단한 DSL.
- 자동 계획 및 분해: 플래너는 워크로드 패턴과 구성 요소 특성을 기반으로 모델을 단일체로 유지할지, 더 작은 서비스로 분할할지를 결정합니다.
- 이질성 인식 런타임: 혼합 모달리티 서브‑태스크를 스케줄링하고, GPU/CPU 자원을 균형 있게 배분하며, 구성 요소 간 데이터를 파이프라인하는 분산 실행 엔진.
- 성능 향상: 실험 결과 기존 서빙 스택에 비해 최대 3.81배 높은 처리량 및 5.79배 낮은 꼬리 지연시간을 보였습니다.
- 범용성: 텍스트‑이미지 확산 파이프라인부터 비디오‑질문‑답변 시스템에 이르기까지 다양한 Any‑to‑Any 모델에 적용됩니다.
Methodology
- Model Graph Specification – 개발자는 “image encoder → multimodal transformer → diffusion decoder”와 같이 각 단계가 나열된 경량 설명(DAG와 유사)을 작성합니다.
- Planner Phase –
- Profiling: Cornserve는 각 컴포넌트에 대한 연산 비용, 메모리 사용량, 데이터 전송 크기를 측정하기 위해 빠른 오프라인 벤치마크를 실행합니다.
- Cost Model: 이 측정값을 예상 요청 비율(예: 텍스트‑투‑이미지 40 %, 오디오‑투‑텍스트 20 %)과 결합하여 전체 지연 시간과 자원 사용량을 추정합니다.
- Optimization: 혼합 정수 선형 프로그램(mixed‑integer linear program)을 사용해 플래너는 다음을 결정합니다:
- 어떤 컴포넌트를 동일한 디바이스에 함께 배치할지.
- 어떤 컴포넌트를 별도의 마이크로‑서비스로 분할할지.
- 각 서비스에 필요한 복제본 수.
- Distributed Runtime – 추론 시점에 요청 라우터가 들어오는 모달리티 조합을 파싱하고, 사전 계산된 플랜을 조회한 뒤 적절한 워커에게 서브‑태스크를 디스패치합니다. 런타임은 다음을 처리합니다:
- Heterogeneous hardware (diffusion에는 GPU, 경량 인코더에는 CPU).
- Pipelining을 통해 연산과 데이터 이동을 겹치게 수행.
- Dynamic scaling을 통해 요청 패턴이 변할 때 자동으로 규모를 조정.
전체 파이프라인은 기존 컨테이너 오케스트레이션(Kubernetes) 및 추론 프레임워크(TensorRT, PyTorch Serve) 위에 구축되므로, 개발자는 모델 코드를 다시 작성하지 않고도 이를 채택할 수 있습니다.
결과 및 발견
| Scenario | Baseline (single‑service) | Cornserve | Speed‑up | Tail‑latency ↓ |
|---|---|---|---|---|
| Text‑to‑Image (Stable Diffusion) | 45 req/s | 172 req/s | 3.81× | 5.79× |
| Audio‑to‑Text (Whisper + LLM) | 30 req/s | 92 req/s | 3.07× | 4.2× |
| Video‑Q&A (ViT encoder + LLM) | 12 req/s | 34 req/s | 2.83× | 3.9× |
핵심 요약
- 컴포넌트 수준 스케일링 (예: 디퓨전 디코더만 복제)은 전체 모놀리식 모델을 스케일링하는 것보다 훨씬 더 나은 자원 활용도를 제공합니다.
- 크로스 모달리티 파이프라이닝 은 GPU 유휴 시간을 감소시키며, 특히 요청이 저비용 인코더와 고비용 생성기를 혼합할 때 효과적입니다.
- 플래너의 결정은 일반적인 워크로드 변동에도 안정적으로 유지되며, 런타임은 최소한의 중단으로 실시간 재계획이 가능합니다.
Practical Implications
- Faster product features: 빠른 제품 기능: AI‑powered 편집기, 채팅 어시스턴트, 혹은 콘텐츠 생성 도구를 구축하는 팀은 하드웨어를 과다 할당하지 않고도 더 풍부한 멀티모달 상호작용을 제공할 수 있습니다.
- Cost savings: 비용 절감: GPU를 무거운 단계에만 할당함으로써 클라우드 비용을 크게 낮출 수 있습니다—특히 일부 구성 요소만 필요한 급증하는 워크로드의 경우에 더욱 효과적입니다.
- Simplified ops: 운영 간소화: 엔지니어가 각 새로운 멀티모달 모델마다 마이크로서비스 경계를 직접 설계할 필요가 없으며, Cornserve의 플래너가 이를 자동으로 처리합니다.
- Future‑proofing: 미래 대비: 새로운 Any‑to‑Any 아키텍처(예: 오디오‑투‑비디오 디퓨전)가 등장하더라도 최소한의 코드 변경으로 동일한 서빙 스택에 연결할 수 있습니다.
제한 사항 및 향후 작업
- 정적 프로파일링 가정: 플래너는 오프라인 벤치마크에 의존합니다; 입력 크기의 급격한 변화(예: 초고해상도 이미지) 시 계획의 최적성이 저하될 수 있습니다.
- 하드웨어 다양성: 현재 실험은 GPU 중심 클러스터에 초점을 맞추고 있으며, 런타임을 이기종 엣지 디바이스(TPU, NPU)로 확장하는 작업은 향후 과제로 남겨져 있습니다.
- 모델 특화 최적화: 일부 모델은 맞춤형 커널이나 양자화에서 이점을 얻지만, Cornserve는 아직 이를 자동으로 제공하지 않습니다.
- 동적 워크로드 적응: 재계획이 지원되지만, 초저지연 서비스에 대한 재최적화 지연 시간을 개선할 여지가 있습니다.
전반적으로 Cornserve는 체계적이고 그래프 인식적인 서빙 접근 방식이 오늘날 가장 유연한 멀티모달 AI 시스템의 성능 잠재력을 끌어낼 수 있음을 보여주며, 이를 실제 제품에 적용 가능하게 합니다.
저자
- Jeff J. Ma
- Jae-Won Chung
- Jisang Ahn
- Yizhuo Liang
- Akshay Jajoo
- Myungjin Lee
- Mosharaf Chowdhury
논문 정보
- arXiv ID: 2512.14098v1
- Categories: cs.LG, cs.DC
- Published: 2025년 12월 16일
- PDF: PDF 다운로드