[Paper] MuxTune: 멀티테넌트 데이터센터에서 공간‑시간 백본 멀티플렉싱을 통한 효율적인 멀티태스크 LLM 파인튜닝

발행: 1일 전 (2026년 3월 3일 오후 08:34 GMT+9)

10 분 소요

원문: arXiv

Source: arXiv - 2603.02885v1

개요

많은 고객을 위한 대형 언어 모델(LLM) 파인튜닝은 현대 AI 데이터센터의 핵심 서비스입니다. 일반적인 접근 방식인 각 요청마다 별도의 PEFT(파라미터 효율 파인튜닝) 인스턴스를 실행하는 방법은 GPU를 절반 정도만 활용하게 만들고, 작업이 컴퓨팅 및 통신 대역폭을 놓고 경쟁할 때 비용이 많이 드는 정체 현상을 초래합니다. MuxTune은 여러 파인튜닝 작업이 LLM 백본을 공유하도록 설계된 시스템을 제안합니다. 이 시스템은 공간(병렬 연산자 실행)과 시간(작업 교차 실행) 모두에서 백본을 다중화하여 활용도를 크게 높이고 메모리 사용량을 획기적으로 줄입니다.

핵심 기여

통합 PEFT 표현: LoRA, 어댑터, 프리픽스‑튜닝 등 다양한 파인‑튜닝 방식을 공통 백본‑공유 형식으로 추상화합니다.
계층적 공동 스케줄링: 작업, 연산자, 데이터의 세 수준에서 언제, 어디서 각 PEFT 작업을 실행할지 결정합니다.
하이브리드 시공간 다중화: 작업을 결합하여 백본의 서로 다른 레이어가 여러 파인‑튜닝 스트림을 동시에 서비스하도록 하면서도 각 작업의 논리적 순서를 유지합니다.
두 단계 하이브리드 병렬성: 공유 백본에 대해 데이터 병렬과 파이프라인 병렬 실행을 혼합하여 GPU 유휴 사이클을 감소시킵니다.
청크 기반 데이터 정렬: 서로 다른 작업의 토큰을 “효과적인” 청크로 그룹화하여 패딩이나 작업‑특정 토큰에 대한 낭비 계산을 없앱니다.
실증적 성과: 세 가지 주요 PEFT 서빙 베이스라인 대비 2.33배 높은 처리량 및 5.29배 낮은 메모리 사용량을 달성했습니다.

방법론

모듈형 백본 추상화
- LLM의 트랜스포머 레이어를 공유 서비스로 간주하여 모든 PEFT 작업에서 호출할 수 있도록 합니다.
- 각 작업의 경량 어댑터를 플러그인 모듈로 연결하여 동일한 핵심 가중치를 중복 없이 재사용할 수 있습니다.
계층적 공동 스케줄링
- 작업 수준: 전역 스케줄러가 호환 가능한 파인튜닝 작업(유사한 배치 크기, 토큰 길이)을 퓨전 그룹으로 묶습니다.
- 연산자 수준: 그룹 내에서 스케줄러는 어떤 트랜스포머 하위 레이어(예: 어텐션, 피드포워드)가 작업 간에 병렬로 실행될지(공간 다중화) 그리고 어떤 레이어가 순차적으로 실행될지(시간 다중화)를 결정합니다.
- 데이터 수준: 입력 시퀀스를 작업 간에 정렬되는 청크로 나누어 단일 GPU 커널이 여러 작업의 토큰을 혼합 배치로 동시에 처리하도록 합니다.
2단계 하이브리드 병렬 처리
- Tier 1 (작업 내): 각 작업의 어댑터에 대해 고전적인 데이터 병렬성을 적용하여 그래디언트 업데이트를 로컬에 유지합니다.
- Tier 2 (작업 간): 공유 백본을 가로지르는 파이프라인 병렬성을 사용해 이전 작업이 뒤쪽 레이어를 마치는 동안 다음 작업의 청크를 시작할 수 있습니다.
구현 세부 사항
- PyTorch와 NVIDIA의 NCCL 위에 구축되어 빠른 GPU 간 통신을 제공합니다.
- 맞춤형 CUDA 커널이 혼합 토큰 청크를 처리하여 작업당 별도 커널을 실행하는 오버헤드를 피합니다.
- 경량 런타임이 GPU 메모리 압력을 모니터링하고 메모리 한도 내에 유지하도록 퓨전 그룹을 동적으로 재구성합니다.

결과 및 발견

Baseline	처리량 (samples/s)	GPU 메모리 (GB)
Single‑Task PEFT (state‑of‑the‑art)	1.0× (reference)	12
Parallel‑Task Naïve (no sharing)	0.78×	18
Existing Multi‑Task PEFT System	1.45×	9
MuxTune	2.33×	2.3 GB (≈5.29× reduction)

처리량은 공유 백본이 병목 현상이 되기 전까지 동시 작업 수에 거의 선형적으로 증가합니다; 그 이후에는 스케줄러가 자동으로 새로운 작업을 제한합니다.
메모리 절감은 백본 가중치를 단일 복사본으로 저장하고 작업 간에 재사용함으로써 주로 달성됩니다; 어댑터만이 작업별 오버헤드로 남습니다.
지연 영향은 미미합니다: 하이브리드 시간 다중화가 배치당 ≤ 15 ms만 추가하므로 대부분의 파인‑튜닝 API 워크로드에 거의 영향을 주지 않습니다.
확장성 테스트는 8‑GPU 클러스터에서 일관된 이득을 보여주며, 이 접근 방식이 단일 노드와 다중 노드 배포 모두에서 작동함을 확인합니다.

Practical Implications

Cost Reduction for AI Service Providers – By cutting memory usage > 5×, providers can fit more fine‑tuning jobs on the same GPU fleet, lowering hardware spend and energy consumption.
Higher SLA Fulfilment – The throughput boost means lower request queuing times, translating to tighter latency SLAs for customers who need rapid model customization.
Simplified Ops – Operators no longer need to spin up a dedicated container per fine‑tuning request; a single MuxTune service can host dozens of concurrent jobs, easing orchestration and monitoring.
Developer Flexibility – Since MuxTune works with any PEFT method that can be expressed in the unified representation, developers can continue using their preferred adapters without code changes.
Potential for Edge‑to‑Cloud Continuity – The same multiplexing ideas could be applied to smaller GPU clusters at the edge, enabling on‑prem fine‑tuning with the same efficiency gains.

제한 사항 및 향후 작업

Task Compatibility Constraints – Fusion 그룹은 유사한 시퀀스 길이와 배치 크기를 필요로 하며, 매우 이질적인 워크로드는 여전히 별도의 인스턴스가 필요할 수 있습니다.
Scheduler Overhead – 계층형 스케줄러는 일부 CPU 오버헤드를 도입하며, 이는 극단적인 규모(수백 개의 동시 작업)에서 눈에 띌 수 있습니다.
Model Size Bound – 실험은 7‑B에서 13‑B 파라미터 모델에 초점을 맞추었으며, 70‑B 이상 모델로 확장하려면 추가적인 메모리 인식 파티셔닝 전략이 필요할 수 있습니다.
Future Directions – 저자들은 (1) 통합 PEFT 추상화를 확장하여 검색 기반 미세 조정을 포함하고, (2) 동적 워크로드를 위한 강화 학습 기반 스케줄링을 통합하며, (3) 하드웨어 수준 지원(예: NVIDIA Hopper의 텐서 코어 스케줄링)을 탐색하여 커널 시작 지연을 더욱 감소시킬 계획입니다.

저자

Chunyu Xue
Yi Pan
Weihao Cui
Quan Chen
Shulai Zhang
Bingsheng He
Minyi Guo

논문 정보

arXiv ID: 2603.02885v1
Categories: cs.DC
Published: 2026년 3월 3일
PDF: PDF 다운로드

[Paper] MuxTune: 멀티테넌트 데이터센터에서 공간‑시간 백본 멀티플렉싱을 통한 효율적인 멀티태스크 LLM 파인튜닝

개요

핵심 기여

방법론

결과 및 발견

Practical Implications

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] Serverless 추상화: 단기 실행 및 경량 스트림을 위한

[Paper] 확장 가능한 Mesh Coupling for Atmospheric Wave Simulation

[Paper] 다수 의견을 가진 미결정 상태 역학

[Paper] 왜 Atomicity가 AI/ML 인프라에 중요한가: Snapshots, Firmware Updates, 그리고 Forward-In-Time-Only 카테고리 실수의 비용