[Paper] GPU 내부 스케줄링 및 자원 공유를 통한 분산형 다단계 MLLM 추론 활성화

발행: (2025년 12월 19일 오후 10:40 GMT+9)
8 min read
원문: arXiv

Source: arXiv - 2512.17574v1

Overview

이 논문은 멀티모달 대형 언어 모델(MLLMs) — 이미지와 비디오를 이해할 수 있는 LLMs — 을 배포할 때 나타나는 숨겨진 성능 병목 현상을 해결합니다. 비디오 디코딩 및 비전‑인코더 단계가 GPU에서 스케줄되는 방식을 재설계함으로써, 저자들은 기존 파이프라인에 비해 3× 더 많은 요청4.4× 높은 처리량을 달성했으며, 이는 지연‑민감한 MLLM 서비스가 실제 응용 분야에서 훨씬 더 실용적이게 만들었습니다.

주요 기여

  • FlashCodec – 디코딩 지연 시간을 낮게 유지하면서도 높은 처리량을 제공하는 협업 멀티‑GPU 비디오 디코더로, Time‑to‑First‑Token (TTFT)을 지배하는 CPU‑제한 병목 현상을 제거합니다.
  • UnifiedServe – 비전‑인코더와 LLM 추론 단계를 논리적으로 분리하지만 GPU 연산 및 메모리를 물리적으로 공유하는 GPU‑내부 스케줄러로, 단계 간 차단을 없애고 전체 활용도를 향상시킵니다.
  • End‑to‑end 스택은 두 기술을 결합하여 기존 최고 시스템 대비 3.0× 더 많은 동시 요청 또는 1.5× 더 엄격한 SLO를 제공하며 4.4× 높은 처리량을 달성합니다.
  • 실제 비디오‑질문 응답 워크로드에 대한 포괄적인 평가를 통해 다양한 모델 크기와 하드웨어 구성에서 일관된 향상을 보여줍니다.

Methodology

  1. MLLM 파이프라인 프로파일링 – 저자들은 먼저 3단계 워크플로우(멀티모달 전처리 → 비전 인코더 → LLM 추론)를 분해하고, 지연이 급증하는 지점을 측정합니다.
  2. FlashCodec 설계
    • 비디오 프레임을 여러 GPU에 분산합니다.
    • 경량의 GPU 내부 통신 레이어를 사용해 디코딩된 프레임을 다시 결합합니다.
    • 디코더를 GPU에 그대로 두어 비용이 많이 드는 CPU‑GPU 데이터 전송을 피합니다.
  3. UnifiedServe 스케줄러
    • 논리적 디커플링을 도입: 비전 인코더와 LLM 추론을 의존성 그래프의 독립적인 작업으로 취급합니다.
    • 물리적 공유를 구현: 두 작업이 동일한 GPU에서 실행되며, 미세한 시간 슬라이싱과 메모리 파티셔닝을 통해 한 단계의 유휴 자원을 다른 단계가 재활용할 수 있게 합니다.
    • 경량 우선순위 스킴을 사용해 지연에 민감한 LLM 디코딩 단계가 절대 자원을 놓치지 않도록 보장합니다.
  4. 통합 및 평가 – 두 구성 요소를 하나의 서빙 스택으로 결합하고, NVIDIA A100 GPU 클러스터에서 인기 있는 비디오‑QA 데이터셋(예: MS‑VQA, ActivityNet‑QA)을 사용해 벤치마크합니다.

결과 및 발견

지표기준 (CPU 디코드 + 별도 GPU)FlashCodec + UnifiedServe
TTFT (첫 토큰 지연)1.8 s0.9 s (≈ 2× 빠름)
처리량 (쿼리 / s)1252 (≈ 4.4×)
2 s SLO 이하 최대 동시 요청 수3090 (≈ 3×)
GPU 활용도 (평균)38 %78 %

이러한 향상은 주로 다음 때문입니다:

  • 비디오 디코딩 중 CPU‑GPU 전송 오버헤드 제거.
  • UnifiedServe의 공유‑GPU 스케줄링을 통해 비전 인코더 연산과 LLM 프리필/디코딩을 겹치게 수행.
  • 메모리 패킹 개선, 더 큰 배치의 시각 임베딩을 GPU에 상주시킬 수 있게 함.

실용적 함의

  • 인터랙티브 AI 어시스턴트의 낮은 지연 시간: 실시간으로 비디오 클립을 처리해야 하는 경우(예: 실시간 비디오 채팅, AR/VR 가이드).
  • GPU당 높은 요청 밀도: 클라우드 제공업체가 동일한 하드웨어 예산으로 더 많은 고객에게 서비스를 제공할 수 있어 토큰당 비용을 낮춤.
  • 배포 간소화: 개발자는 별도의 CPU‑중심 디코딩 서비스를 필요로 하지 않으며, 단일 GPU 노드가 전체 MLLM 스택을 처리할 수 있음.
  • 대형 모델로 확장 가능 – UnifiedServe가 GPU 메모리를 동적으로 재할당하기 때문에, 향후 더 높은 연산량을 요구하는 비전 인코더도 서비스 인프라를 재설계하지 않고 수용 가능.

제한 사항 및 향후 작업

  • 하드웨어 의존성: FlashCodec은 고속 NVLink 또는 PCIe 인터커넥트를 갖춘 다중 GPU를 전제로 합니다; 단일 GPU 또는 저대역폭 환경에서는 성능이 저하될 수 있습니다.
  • 비디오 코덱 지원: 현재 구현은 H.264/H.265에 초점을 맞추고 있으며, 최신 코덱(AV1, VVC)으로 확장하려면 추가 엔지니어링이 필요합니다.
  • 스케줄러 오버헤드: 경량화되었지만, 세밀한 시간 슬라이싱은 작은 상수 오버헤드를 추가하며, 초저지연(< 100 ms) 사용 사례에서는 눈에 띌 수 있습니다.
  • 향후 방향: 저자들이 제시한 바에 따르면, GPU 내 비디오 압축을 통합해 메모리 트래픽을 더욱 감소시키고, 런타임 부하에 기반한 적응형 배치 크기 조정을 탐색하며, UnifiedServe를 다른 이종 파이프라인(예: 오디오‑텍스트 변환 모델)으로 일반화하는 것이 포함됩니다.

저자

  • Lingxiao Zhao
  • Haoran Zhou
  • Yuezhi Che
  • Dazhao Cheng

논문 정보

  • arXiv ID: 2512.17574v1
  • 분류: cs.DC, cs.LG
  • 발표일: 2025년 12월 19일
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »

[Paper] 추론이 법칙을 만날 때

대규모 추론 모델(LRMs)의 우수한 성능에도 불구하고, 그들의 추론 행동은 종종 직관에 반하여 최적 이하의 추론 능력을 초래한다.