[Paper] 트라이던트: 이기종 멀티모달 데이터 파이프라인을 위한 적응형 스케줄링

발행: (2026년 3월 3일 오전 02:00 GMT+9)
11 분 소요
원문: arXiv

Source: arXiv - 2603.02075v1

Overview

멀티모달 AI 파이프라인—예를 들어 PDF‑to‑text 추출, 비디오 캡션 생성, 이미지‑플러스‑텍스트 검색—은 무거운 CPU 전처리와 GPU/TPU 추론을 혼합합니다. 작업량이 지속적으로 변동(다양한 입력 크기, 가변 길이 모델, 가끔 발생하는 메모리 급증)하기 때문에 정적 스케줄러는 자원을 낭비하거나 메모리 부족 오류로 충돌합니다. Trident는 파이프라인을 실시간으로 감시하고 각 연산자의 실행 속도를 예측하며 고정된 클러스터에서 배치와 병렬성을 지속적으로 재최적화하는 새로운 적응형 스케줄링 프레임워크입니다. 그 결과 하드웨어를 추가하지 않고도 2× higher throughput를 달성할 수 있습니다.

주요 기여

  • Three‑layer closed‑loop scheduler는 (1) Gaussian‑Process 회귀를 사용해 연산자별 처리량을 관찰하고, (2) 워크로드 레짐 변화를 감지하여 메모리 인식 Bayesian 최적화를 수행하며, (3) 혼합 정수 선형 프로그램을 풀어 병렬성, 디바이스 배치, 안전한 구성 전환을 동시에 결정합니다.
  • Anomaly‑filtered GP model은 비동기적이고 이기종 연산자에서 흔히 나타나는 잡음이 많고 급증하는 성능 신호를 처리할 수 있습니다.
  • Memory‑constrained Bayesian optimizer는 파이프라인의 메모리 사용량이 급증하더라도 제안된 모든 구성이 OOM‑safe(메모리 초과 위험 없음)를 보장합니다.
  • Rolling‑update scheduling은 콜드 스타트 비용을 고려하여 전체 파이프라인을 중단하지 않고도 원활한 전환을 가능하게 합니다.
  • Integration with Ray Data와 실제 문서 및 비디오 큐레이션 파이프라인에 대한 시연을 통해 각각 최대 2.01× 및 **1.88×**의 처리량 향상을 보여줍니다.

Source:

Methodology

  1. Observation Layer – 각 연산자(예: PDF 파싱, OCR, 비디오 디코딩, 트랜스포머 추론)는 현재 처리량과 메모리 사용량을 보고합니다. Trident는 이러한 측정값에 가우시안 프로세스(GP) 모델을 적용하고, 일시적인 스파이크로 인한 이상치를 자동으로 제외합니다. GP는 지속 가능한 처리량을 모든 병렬성 수준에 대해 예측합니다.

  2. Adaptation Layer – 가벼운 체인지포인트 감지기가 GP 예측을 감시합니다. 변동이 감지되면(예: 더 긴 PDF 배치가 도착) Trident는 엄격한 메모리 예산을 조건으로 병렬성 및 디바이스 배치 설정 공간을 탐색하는 베이지안 최적화 루프를 시작합니다. 최적화기는 GP가 메모리 한도 내에 머물 것으로 예측하는 구성만 반환합니다.

  3. Scheduling Layer – 선택된 구성은 혼합 정수 선형 프로그램(MILP)에 입력됩니다. MILP는 동시에 다음을 결정합니다:

    • 각 연산자의 복제본 수(병렬성).
    • 각 복제본이 사용할 하드웨어(CPU, GPU, NPU, TPU).
    • 새로운 구성을 언제 롤아웃할지, 콜드 스타트(모델 로딩, 데이터 워밍업) 비용과 예상 처리량 향상 사이의 균형을 맞춥니다.

    MILP는 전체 GPU 메모리, PCIe 대역폭, CPU 코어 수와 같은 클러스터 전체 제약 조건을 준수합니다.

  4. Feedback Loop – 새로운 스케줄이 활성화되면 Trident는 환경이 변했기 때문에 오래된 GP 샘플을 무효화하고, 최신 관측치를 수집하기 시작하여 모델을 최신 상태로 유지합니다.

이 모든 과정은 서브 초 단위의 오버헤드로 온라인에서 실행되며, 장시간 재최적화 중단을 감당할 수 없는 프로덕션 서비스에 적합합니다.

결과 및 발견

파이프라인베이스라인 (정적)트라이던트 (적응형)속도 향상메모리 안전성
PDF 문서 큐레이션 (CPU 집약 전처리 + GPU OCR)120 문서/초242 문서/초2.01×OOM 발생 없음
비디오 큐레이션 (디코드 → 프레임‑레벨 모델 → 메타데이터)45 클립/초85 클립/초1.88×OOM 발생 없음
오버헤드< 5 % of total runtime

주요 관찰 사항

  • 처리량 향상이 가장 큰 경우는 워크로드가 빈번한 레짐 전환을 보일 때 (예: 다양한 크기의 PDF). 적응형 루프는 무거운 배치를 위해 병렬성을 빠르게 높이고 가벼운 배치는 낮추어 GPU 활용도를 약 90 % 수준으로 유지합니다.
  • 메모리 인식 최적화는 정적 베이스라인이 메모리 피크 시 발생하던 OOM 충돌을 제거합니다 (예: 고해상도 비디오 처리).
  • MILP는 32코어 제어 노드에서 < 200 ms 안에 해결되며, 스케줄 업데이트를 분당 여러 번 수행해도 지연에 영향을 주지 않음을 의미합니다.

실용적 시사점

  • AI 플랫폼 엔지니어를 위해: Trident는 기존 Ray Data 파이프라인(또는 유사한 데이터‑플로우 프레임워크)에 바로 적용할 수 있어 동일한 하드웨어에서 더 높은 성능을 자동으로 끌어내어 클라우드 비용을 절감합니다.
  • ML Ops 팀을 위해: 메모리‑안전 베이지안 옵티마이저는 수동으로 “max‑batch‑size”를 튜닝할 필요성을 없애며, 이는 생산 환경에서 흔히 발생하는 사고의 주요 원인입니다.
  • 멀티모달 서비스를 구축하는 개발자를 위해: 이제 CPU‑집약적인 전처리(예: PDF 파싱, 비디오 디코딩)와 가속기‑기반 추론을 손수 연산자별 스케일링 규칙을 만들지 않고도 혼합할 수 있습니다. Trident의 롤링 업데이트는 재구성 중에도 지연 시간을 안정적으로 유지해 SLA를 보장합니다.
  • 클라우드 제공자를 위해: 이 접근 방식은 더 똑똑한 스케줄링을 통해 기존 클러스터에서 처리량을 두 배로 늘릴 수 있음을 보여주며, 비용이 많이 드는 하드웨어 업그레이드 시기를 늦출 수 있습니다.

제한 사항 및 향후 작업

  • 고정 자원 가정 – Trident는 정적 클러스터 내에서 최적화합니다; 현재는 수평 확장(노드 추가/제거)을 트리거하지 않습니다. 루프에 자동 확장 결정을 포함하도록 확장하면 적용 범위가 넓어집니다.
  • 모델링 오버헤드 – 가우시안 프로세스 회귀는 관측 수에 따라 세제곱으로 확장됩니다; 현재 구현은 데이터셋을 작게 유지하기 위해 슬라이딩 윈도우를 사용하지만, 장기 추세를 놓칠 수 있습니다. 더 확장 가능한 대리 모델(예: 딥 커널 학습)을 사용하면 정확도를 향상시킬 수 있습니다.
  • 연산자 세분성 – 프레임워크는 연산자가 처리량 및 메모리 메트릭을 노출한다고 가정합니다. 블랙박스 단계(예: 타사 서비스)는 계측 또는 프록시 래퍼가 필요합니다.
  • Ray Data를 넘어선 일반화 – 개념은 이식 가능하지만, Trident를 다른 오케스트레이션 시스템(Kubernetes, Dask)과 통합하려면 해당 스케줄링 API용 어댑터가 필요합니다.

향후 연구 방향으로는 다중 클러스터 조정, 비용 인식 클라우드 청구 API와의 통합, 그리고 장기 배포 이력으로부터 학습할 수 있는 강화 학습 기반 스케줄러 탐색이 포함됩니다.

저자

  • Ding Pan
  • Zhuangzhuang Zhou
  • Long Qian
  • Binhang Yuan

논문 정보

  • arXiv ID: 2603.02075v1
  • 분류: cs.DC
  • 출판일: 2026년 3월 2일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »