[Paper] SiDP: 메모리 효율적인 데이터 병렬화를 통한 오프라인 LLM 추론

발행: 2주 전 (2026년 5월 27일 PM 04:52 GMT+9)

8 분 소요

원문: arXiv

Source: arXiv - 2605.28095v1

개요

이 논문은 SiDP라는 새로운 방식을 소개합니다. SiDP는 대규모 언어 모델(LLM) 추론을 오프라인 고처리량 환경에서 GPU 메모리를 과도하게 사용하지 않도록 실행할 수 있게 해줍니다. 모델 가중치를 각 GPU에 전체 복사본으로 두는 대신, 필요에 따라 공유되는 자원으로 전환함으로써, SiDP는 더 큰 KV 캐시를 유지하고 더 높은 배치 크기를 달성할 수 있게 합니다—이는 프로덕션 수준 추론 파이프라인에 핵심적인 요소입니다.

핵심 기여

Weight‑as‑a‑Service (WaS) & Compute‑as‑a‑Service (CaS): GPU가 원격 가중치를 가져오거나 필요에 따라 활성화를 전송할 수 있는 두 가지 보완적인 실행 모드로, 전체 모델 복제 필요성을 없앱니다.
Distributed Weight Pool: 각 레이어의 파라미터가 단일 “소유자” GPU에 존재하여, 가중치 텐서를 데이터 병렬 그룹 전체에 걸친 대역폭 기반 공유 객체로 전환합니다.
Memory Savings: 기존 데이터 병렬 방식(vLLM)과 비교해 GPU당 KV 캐시 용량을 최대 **1.8×**까지 늘릴 수 있습니다.
Throughput Boost: NVIDIA H20, H200, B200 GPU를 사용한 실제 벤치마크에서 오프라인 추론 작업에 대해 엔드‑투‑엔드 처리량이 최대 1.5× 향상된 것으로 나타났습니다.
Compatibility Layer: SiDP는 기존 DP 프레임워크의 드롭‑인 대체물로 작동하며, 추론 엔진 스케줄링 로직에 최소한의 변경만 필요합니다.

방법론

가중치 분배
- 모델은 데이터 병렬 그룹 내 GPU들에 레이어 단위로 분할됩니다.
- 해당 레이어를 담당하는 GPU만이 전체 FP16/FP8 가중치 텐서를 저장합니다.
WaS 모드 (대규모 배치 환경)
- 대규모 배치를 처리할 때, 각 GPU는 전방 패스 직전에 필요한 원격 가중치를 NVLink를 통해 작은 온칩 캐시로 스트리밍합니다.
- 캐시 크기는 몇 개의 레이어를 저장하도록 설계되어, 스트리밍 오버헤드가 다수 토큰에 걸쳐 상쇄됩니다.
CaS 모드 (소규모 배치 꼬리)
- 배치의 뒤쪽에서 토큰당 연산이 병목이 될 경우, GPU는 활성화 텐서를 가중치를 보유한 GPU에 전송하고, 해당 GPU가 로컬에서 행렬 곱을 수행하도록 합니다.
- 이는 원격 가중치 조회 횟수를 줄이고 파이프라인을 지속적으로 가동시킵니다.
스케줄러 및 겹침
- 가벼운 스케줄러가 가중치 조회, 활성화 전송, 연산을 겹쳐 수행하여 NVLink의 높은 대역폭과 낮은 지연을 활용합니다.
- 배치 크기가 너무 작아 두 모드 모두 이득이 없을 경우, 시스템은 기존 데이터 병렬(DP) 방식으로 전환합니다.
평가 설정
- 벤치마크는 세 가지 NVIDIA GPU 제품군(H20, H200, B200)과 최신 LLM 세 모델(Qwen3‑32B, Qwen2.5‑72B, Llama‑3.1‑70B)에서 실행됩니다.
- 기준선: vLLM의 표준 데이터 병렬 추론 파이프라인.

결과 및 발견

GPU	Model	KV cache per GPU (MiB)	Throughput ↑ vs. vLLM
H20	Qwen3‑32B	1.8× increase	1.5×
H200	Qwen2.5‑72B	1.6× increase	1.4×
B200	Llama‑3.1‑70B	1.5× increase	1.3×

Memory Efficiency: 전체 가중치 복제를 없애면, 일반적으로 생성 중 가장 많은 메모리를 차지하는 KV 캐시가 70‑B 모델에서도 여유 있게 들어갑니다.
Scalability: 처리량은 GPU 수에 따라 선형적으로 증가하며, NVLink 대역폭이 제한 요인이 되는 시점까지 확장됩니다; 그 이후에는 CaS 모드가 자연스럽게 인계받습니다.
Latency: 토큰당 지연 시간은 가중치 가져오기가 연산 뒤에 겹쳐 숨겨지기 때문에 기본 DP와 비슷하게 유지됩니다.

Practical Implications

Cost Savings: 비용 절감: 운영자는 동일한 하드웨어에서 더 큰 배치를 실행할 수 있어, 특정 QPS 목표에 필요한 GPU 인스턴스 수를 줄일 수 있습니다.
Higher Utilization: 높은 활용도: 오프라인 워크로드(예: 배치 임베딩 생성, 문서 요약 파이프라인)는 종종 GPU 활용도가 낮은 문제를 겪습니다; SiDP는 활용도를 이론적 최대치에 가깝게 끌어올립니다.
Simplified Deployment: 배포 간소화: 텐서 병렬화를 위해 모델 코드를 다시 작성할 필요가 없습니다; SiDP는 얇은 래퍼를 통해 기존 추론 서버(vLLM, TensorRT‑LLM 등)에 쉽게 연결할 수 있습니다.
Future‑Proofing: 미래 대비: 최신 GPU가 NVLink 대역폭을 증가시키면서(예: Hopper‑X), 가중치 공유 모델은 더욱 매력적으로 변해 현재 GPU 군대의 수명을 연장합니다.

제한 사항 및 향후 작업

NVLink 의존성: SiDP의 성능 향상은 고속 GPU 간 인터커넥트에 의존합니다; PCIe 전용 클러스터에서는 가중치 가져오기 오버헤드가 이점을 상쇄할 수 있습니다.
소규모 배치 엣지 케이스: 배치 크기가 특정 임계값 이하로 떨어지면 시스템이 기존 DP 방식으로 전환되어 이점이 없습니다.
동적 워크로드: 현재 스케줄러는 비교적 정적인 배치 크기를 전제로 합니다; 변동이 큰 요청 패턴을 처리하려면 적응형 모드 전환이 필요합니다.
향후 방향: 저자들은 원격 가중치 스트림에 대한 압축 기법을 탐색하고, 혼합 정밀도(FP8) 파이프라인과 통합하며, 네트워크 지연이 더 큰 요인이 되는 멀티노드 클러스터로 모델을 확장할 계획입니다.

저자

Alan Zhao
Cyril Y. He

논문 정보

arXiv ID: 2605.28095v1
분류: cs.DC
발행일: 2026년 5월 27일
PDF: PDF 다운로드

[Paper] SiDP: 메모리 효율적인 데이터 병렬화를 통한 오프라인 LLM 추론

개요

핵심 기여

방법론

결과 및 발견

Practical Implications

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[논문] 충돌 없는 복제 데이터 타입을 위한 Datalog 프레임워크

[논문] 라디오 네트워크에서 에너지 효율적 집계와 최소 차수 신장 트리

[논문] 산업 4.0 다중 속도 주기 제어를 위한 무선 센서‑액추에이터 네트워크 스케줄링 메커니즘

[논문] 가상 프로세서가 공짜 점심을 되돌리다

개요

핵심 기여

방법론

결과 및 발견

Practical Implications

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[논문] 충돌 없는 복제 데이터 타입을 위한 Datalog 프레임워크

[논문] 라디오 네트워크에서 에너지 효율적 집계와 최소 차수 신장 트리

[논문] 산업 4.0 다중 속도 주기 제어를 위한 무선 센서‑액추에이터 네트워크 스케줄링 메커니즘

[논문] 가상 프로세서가 공짜 점심을 되돌리다

[논문] 산업 4.0 다중 속도 주기 제어를 위한 무선 센서‑액추에이터 네트워크 스케줄링 메커니즘