[Paper] MuxTune: 멀티테넌트 데이터센터에서 공간‑시간 백본 멀티플렉싱을 통한 효율적인 멀티태스크 LLM 파인튜닝
Source: arXiv - 2603.02885v1
개요
많은 고객을 위한 대형 언어 모델(LLM) 파인튜닝은 현대 AI 데이터센터의 핵심 서비스입니다. 일반적인 접근 방식인 각 요청마다 별도의 PEFT(파라미터 효율 파인튜닝) 인스턴스를 실행하는 방법은 GPU를 절반 정도만 활용하게 만들고, 작업이 컴퓨팅 및 통신 대역폭을 놓고 경쟁할 때 비용이 많이 드는 정체 현상을 초래합니다. MuxTune은 여러 파인튜닝 작업이 LLM 백본을 공유하도록 설계된 시스템을 제안합니다. 이 시스템은 공간(병렬 연산자 실행)과 시간(작업 교차 실행) 모두에서 백본을 다중화하여 활용도를 크게 높이고 메모리 사용량을 획기적으로 줄입니다.
핵심 기여
- 통합 PEFT 표현: LoRA, 어댑터, 프리픽스‑튜닝 등 다양한 파인‑튜닝 방식을 공통 백본‑공유 형식으로 추상화합니다.
- 계층적 공동 스케줄링: 작업, 연산자, 데이터의 세 수준에서 언제, 어디서 각 PEFT 작업을 실행할지 결정합니다.
- 하이브리드 시공간 다중화: 작업을 결합하여 백본의 서로 다른 레이어가 여러 파인‑튜닝 스트림을 동시에 서비스하도록 하면서도 각 작업의 논리적 순서를 유지합니다.
- 두 단계 하이브리드 병렬성: 공유 백본에 대해 데이터 병렬과 파이프라인 병렬 실행을 혼합하여 GPU 유휴 사이클을 감소시킵니다.
- 청크 기반 데이터 정렬: 서로 다른 작업의 토큰을 “효과적인” 청크로 그룹화하여 패딩이나 작업‑특정 토큰에 대한 낭비 계산을 없앱니다.
- 실증적 성과: 세 가지 주요 PEFT 서빙 베이스라인 대비 2.33배 높은 처리량 및 5.29배 낮은 메모리 사용량을 달성했습니다.
방법론
-
모듈형 백본 추상화
- LLM의 트랜스포머 레이어를 공유 서비스로 간주하여 모든 PEFT 작업에서 호출할 수 있도록 합니다.
- 각 작업의 경량 어댑터를 플러그인 모듈로 연결하여 동일한 핵심 가중치를 중복 없이 재사용할 수 있습니다.
-
계층적 공동 스케줄링
- 작업 수준: 전역 스케줄러가 호환 가능한 파인튜닝 작업(유사한 배치 크기, 토큰 길이)을 퓨전 그룹으로 묶습니다.
- 연산자 수준: 그룹 내에서 스케줄러는 어떤 트랜스포머 하위 레이어(예: 어텐션, 피드포워드)가 작업 간에 병렬로 실행될지(공간 다중화) 그리고 어떤 레이어가 순차적으로 실행될지(시간 다중화)를 결정합니다.
- 데이터 수준: 입력 시퀀스를 작업 간에 정렬되는 청크로 나누어 단일 GPU 커널이 여러 작업의 토큰을 혼합 배치로 동시에 처리하도록 합니다.
-
2단계 하이브리드 병렬 처리
- Tier 1 (작업 내): 각 작업의 어댑터에 대해 고전적인 데이터 병렬성을 적용하여 그래디언트 업데이트를 로컬에 유지합니다.
- Tier 2 (작업 간): 공유 백본을 가로지르는 파이프라인 병렬성을 사용해 이전 작업이 뒤쪽 레이어를 마치는 동안 다음 작업의 청크를 시작할 수 있습니다.
-
구현 세부 사항
- PyTorch와 NVIDIA의 NCCL 위에 구축되어 빠른 GPU 간 통신을 제공합니다.
- 맞춤형 CUDA 커널이 혼합 토큰 청크를 처리하여 작업당 별도 커널을 실행하는 오버헤드를 피합니다.
- 경량 런타임이 GPU 메모리 압력을 모니터링하고 메모리 한도 내에 유지하도록 퓨전 그룹을 동적으로 재구성합니다.
결과 및 발견
| Baseline | 처리량 (samples/s) | GPU 메모리 (GB) |
|---|---|---|
| Single‑Task PEFT (state‑of‑the‑art) | 1.0× (reference) | 12 |
| Parallel‑Task Naïve (no sharing) | 0.78× | 18 |
| Existing Multi‑Task PEFT System | 1.45× | 9 |
| MuxTune | 2.33× | 2.3 GB (≈5.29× reduction) |
- 처리량은 공유 백본이 병목 현상이 되기 전까지 동시 작업 수에 거의 선형적으로 증가합니다; 그 이후에는 스케줄러가 자동으로 새로운 작업을 제한합니다.
- 메모리 절감은 백본 가중치를 단일 복사본으로 저장하고 작업 간에 재사용함으로써 주로 달성됩니다; 어댑터만이 작업별 오버헤드로 남습니다.
- 지연 영향은 미미합니다: 하이브리드 시간 다중화가 배치당 ≤ 15 ms만 추가하므로 대부분의 파인‑튜닝 API 워크로드에 거의 영향을 주지 않습니다.
- 확장성 테스트는 8‑GPU 클러스터에서 일관된 이득을 보여주며, 이 접근 방식이 단일 노드와 다중 노드 배포 모두에서 작동함을 확인합니다.
Practical Implications
- Cost Reduction for AI Service Providers – By cutting memory usage > 5×, providers can fit more fine‑tuning jobs on the same GPU fleet, lowering hardware spend and energy consumption.
- Higher SLA Fulfilment – The throughput boost means lower request queuing times, translating to tighter latency SLAs for customers who need rapid model customization.
- Simplified Ops – Operators no longer need to spin up a dedicated container per fine‑tuning request; a single MuxTune service can host dozens of concurrent jobs, easing orchestration and monitoring.
- Developer Flexibility – Since MuxTune works with any PEFT method that can be expressed in the unified representation, developers can continue using their preferred adapters without code changes.
- Potential for Edge‑to‑Cloud Continuity – The same multiplexing ideas could be applied to smaller GPU clusters at the edge, enabling on‑prem fine‑tuning with the same efficiency gains.
제한 사항 및 향후 작업
- Task Compatibility Constraints – Fusion 그룹은 유사한 시퀀스 길이와 배치 크기를 필요로 하며, 매우 이질적인 워크로드는 여전히 별도의 인스턴스가 필요할 수 있습니다.
- Scheduler Overhead – 계층형 스케줄러는 일부 CPU 오버헤드를 도입하며, 이는 극단적인 규모(수백 개의 동시 작업)에서 눈에 띌 수 있습니다.
- Model Size Bound – 실험은 7‑B에서 13‑B 파라미터 모델에 초점을 맞추었으며, 70‑B 이상 모델로 확장하려면 추가적인 메모리 인식 파티셔닝 전략이 필요할 수 있습니다.
- Future Directions – 저자들은 (1) 통합 PEFT 추상화를 확장하여 검색 기반 미세 조정을 포함하고, (2) 동적 워크로드를 위한 강화 학습 기반 스케줄링을 통합하며, (3) 하드웨어 수준 지원(예: NVIDIA Hopper의 텐서 코어 스케줄링)을 탐색하여 커널 시작 지연을 더욱 감소시킬 계획입니다.
저자
- Chunyu Xue
- Yi Pan
- Weihao Cui
- Quan Chen
- Shulai Zhang
- Bingsheng He
- Minyi Guo
논문 정보
- arXiv ID: 2603.02885v1
- Categories: cs.DC
- Published: 2026년 3월 3일
- PDF: PDF 다운로드