[Paper] 메모리 발자국 위기 다스리기: 프로덕션 디퓨전 LLM 서빙을 위한 시스템 설계

발행: 1개월 전 (2025년 12월 19일 오전 06:18 GMT+9)

8 분 소요

원문: arXiv

Source: arXiv - 2512.17077v1

개요

Diffusion Large Language Models (dLLMs)는 전통적인 자동 회귀 모델에 비해 더 빠르고 병렬적인 텍스트 생성을 약속하지만, 대규모 배포 시 “메모리 사용량 위기”에 직면합니다. 이 논문은 dLLM‑Serve를 소개합니다. 이는 프로덕션 환경에 적합한 서빙 시스템으로, diffusion 추론 시 발생하는 메모리 급증과 불균형한 연산‑대역폭 요구를 제어하여, 소비자용 및 서버용 GPU 모두에서 더 높은 처리량과 낮은 꼬리 지연 시간을 제공합니다.

주요 기여

Memory‑aware tensor decomposition – Logit‑Aware Activation Budgeting 은 대규모, 단기 수명 로그잇 텐서를 GPU 메모리에 적합한 작은 조각으로 분해합니다.
Phase‑aware scheduling – Phase‑Multiplexed Scheduler 는 연산 집약적인 “Refresh” 단계와 대역폭에 제한된 “Reuse” 단계를 여러 요청에 걸쳐 교차시켜 자원 사용을 부드럽게 합니다.
Sparse attention redesign – Head‑Centric Sparse Attention 은 논리적 희소성(어떤 헤드가 어떤 토큰을 주목하는지)과 물리적 메모리 레이아웃을 분리하여 효율적인 저장 및 검색을 가능하게 합니다.
End‑to‑end system prototype – 세 가지 기술을 통합한 통합 서빙 스택(dLLM‑Serve)을 구축하고 재현성을 위해 코드를 공개했습니다.
Comprehensive evaluation – RTX 4090 및 NVIDIA L40S GPU에서 실제 워크로드(LiveBench, Burst, OSC)를 대상으로 1.6×–1.8× 처리량 향상과 최대 4배의 꼬리 지연 감소를 입증했습니다.

방법론

확산 파이프라인 프로파일링 – 저자들은 기준 dLLM 구현에 계측을 추가하여 두 개의 구별되는 단계를 노출했습니다:
- Refresh: 확산 상태를 재계산 (컴퓨팅 바인드).
- Reuse: 이전에 계산된 활성화를 재사용하여 다음 토큰을 생성 (대역폭 바인드).
Logit‑Aware 활성화 예산 관리 – 전체 로그잇 텐서를 위한 단일 거대한 버퍼를 할당하는 대신, 시스템은 헤드별 피크 활성화 크기를 예측하고 메모리를 동적으로 파티션하며, 단계가 끝나는 즉시 버퍼를 해제합니다.
단계‑다중 스케줄러 – 요청은 단계별로 대기열에 넣습니다. 스케줄러는 여러 “Refresh” 작업을 묶은 뒤 “Reuse” 작업 배치를 이어서 배치함으로써 GPU의 연산 유닛이 계속 바쁘게 동작하도록 하고 메모리 버스가 포화되지 않게 합니다.
헤드‑중심 희소 어텐션 – 어텐션 행렬은 헤드별로 저장되며, 논리적 희소성 패턴을 물리적 메모리 블록에 매핑하는 컴팩트한 인덱스를 사용해 전체 밀집 텐서를 실제로 만들 필요를 없앱니다.
구현 – PyTorch/CUDA 위에 구축되었으며, 희소 어텐션을 위한 커스텀 커널과 단계 다중화를 조정하는 경량 런타임을 포함합니다.

결과 및 발견

GPU	작업 부하	처리량 (tokens / s)	기준 대비 가속도	꼬리 지연시간 (95번째 백분위수)
RTX 4090	LiveBench	1.81×	1.81×	↓ ≈ 4×
RTX 4090	Burst	1.73×	1.73×	↓ ≈ 3.8×
L40S	OSC	1.60×	1.60×	↓ ≈ 4×

메모리 사용량은 활성화 예산 할당 덕분에 평균 약 30 % 감소했습니다.
GPU 활용도는 모든 단계에서 85 % 이상을 유지했으며, 기준선은 30 % (Refresh)와 70 % (Reuse) 사이에서 변동했습니다.
생성 품질 (BLEU / ROUGE)은 기준선과 통계적으로 구별되지 않았으며, 희소성 기법이 모델 출력에 악영향을 주지 않았음을 확인했습니다.

실용적 시사점

Cost‑effective scaling – 개발자는 저렴한 소비자용 GPU(RTX 4090)에서 서버‑급 성능으로 dLLM을 실행하여 클라우드 비용을 절감할 수 있습니다.
Higher concurrency – Phase multiplexing을 통해 단일 GPU가 OOM 오류 없이 훨씬 더 많은 동시 채팅 또는 완성 요청을 처리할 수 있습니다.
Simplified deployment – 메모리‑예산 로직이 저수준 텐서 관리를 추상화하여 dLLM을 기존 추론 스택(예: Triton, vLLM)에 통합하기 쉽게 합니다.
Real‑time applications – 극적인 꼬리 지연 시간 감소는 인터랙티브 코딩 어시스턴트나 실시간 번역과 같은 지연에 민감한 사용 사례의 문을 엽니다.

제한 사항 및 향후 작업

하드웨어 특이성 – 최적화가 NVIDIA GPU에 맞춰져 있어 AMD나 특수 AI 가속기로 포팅하려면 추가 커널 작업이 필요합니다.
모델‑비특정성 – 시스템은 diffusion‑기반 생성 스케줄을 가정하고 있어 하이브리드 모델(예: diffusion + autoregressive fine‑tuning)에 적용하기는 쉽지 않습니다.
동적 워크로드 – 스케줄러가 정적인 단계 패턴은 잘 처리하지만, 가변 토큰 길이와 같은 매우 불규칙한 요청 패턴은 여전히 최적이 아닌 패킹을 초래할 수 있습니다.
향후 방향 – 헤드‑중심 희소성을 다중‑GPU 샤딩으로 확장하고, 강화 학습을 통한 활성화 예산 자동화, diffusion‑특화 커널에 대한 컴파일러‑수준 지원 탐색 등을 포함합니다.

저자

Jiakun Fan
Yanglin Zhang
Xiangchen Li
Dimitrios S. Nikolopoulos

논문 정보

arXiv ID: 2512.17077v1
분류: cs.DC
출판일: 2025년 12월 18일
PDF: PDF 다운로드

[Paper] 메모리 발자국 위기 다스리기: 프로덕션 디퓨전 LLM 서빙을 위한 시스템 설계

개요

주요 기여

방법론

결과 및 발견

실용적 시사점

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] 은하계 소규모 다이너모의 점근적 거동 (적당한 magnetic Prandtl 수)

[Paper] Torrent: 효율적이고 유연한 포인트‑투‑멀티포인트 데이터 이동을 위한 분산 DMA

[Paper] HEAL 데이터 플랫폼

[Paper] 스케일러블 클라우드 애플리케이션의 민주화: 스트리밍 데이터플로우에서 트랜잭셔널 스테이트풀 함수