[Paper] Tangram: GPU 메모리 재사용 및 어피니티를 통한 Serverless LLM 로딩 가속

발행: 4일 전 (2025년 12월 1일 오후 04:10 GMT+9)

8 min read

원문: arXiv

Source: arXiv - 2512.01357v1

Overview

서버리스 대형 언어 모델(LLM) 배포는 GPU 자원을 다수 사용자와 공유함으로써 “사용량 기반 요금” AI 서비스를 제공할 것을 약속합니다. 그러나 실제로는 특히 모델을 GPU 메모리로 로드하는 데 걸리는 콜드‑스타트 지연 시간이 모델 크기에 비례해 선형적으로 증가해 큰 장애가 됩니다. Tangram은 유휴 GPU 메모리를 재사용하고 GPU‑친화적인 스케줄링을 통해 워크로드를 배치함으로써 이 병목을 해소하고, 모델 로드 시간을 크게 단축해 서버리스 LLM을 실무에 적용 가능하게 만듭니다.

Key Contributions

통합 GPU 메모리 풀: 여러 모델이 텐서 수준 파라미터 저장소를 공유하도록 하여 중복 복사를 없앱니다.
온‑디맨드 KV‑캐시 할당: 필요할 때만 어텐션 캐시 메모리를 동적으로 할당해 다른 모델을 위한 공간을 확보합니다.
GPU‑친화성 인식 스케줄러: 이미 필요한 파라미터를 보유하고 있는 GPU에 추론 요청을 배치해 재사용을 극대화합니다.
프로토타입 구현: 인기 있는 서버리스 추론 프레임워크와 통합하여 기존 솔루션 대비 6.2배 빠른 모델 로드와 **23‑55% 낮은 첫 토큰 도착 시간(TTFT)**을 달성했습니다.

Methodology

Tangram의 설계는 시스템 전문가가 아니어도 이해하기 쉬운 세 가지 실용적인 아이디어에 기반합니다:

1. 모델 간 메모리 풀링

각 모델의 가중치를 새 GPU 할당에 로드하는 대신, Tangram은 전역 GPU 메모리 풀을 생성합니다.
새로운 모델이 요청되면, 풀에 해당 가중치 텐서가 이미 존재하는지(예: 유사 모델 간 공유 레이어) 확인하고, 호스트 RAM에서 전체 복사 없이 직접 재사용합니다.

2. 지연된 KV‑캐시 할당

트랜스포머 어텐션에 사용되는 키‑값(KV) 캐시는 생성 텍스트 길이에 따라 커집니다.
Tangram은 요청당 필요 시에만 이 캐시를 할당하고, 생성이 끝나는 즉시 해제해 다른 모델이 로드될 수 있는 공간을 확보합니다.

3. 친화성 인식 스케줄링

런타임은 현재 어떤 GPU가 어떤 파라미터 텐서를 보유하고 있는지 추적합니다.
요청이 들어오면 스케줄러는 이미 필요한 텐서를 가지고 있는 GPU(높은 “친화성”)를 우선 선택해 PCIe를 통한 데이터 전송량을 최소화합니다.

이 프로토타입은 기존 서버리스 추론 스택(예: NVIDIA Triton 또는 커스텀 Function‑as‑a‑Service 레이어)에 삽입되어 모델 로드 단계에서 위의 기법을 투명하게 적용합니다.

Results & Findings

Metric	Baseline (state‑of‑the‑art)	Tangram	Improvement
Model load time (e.g., 13B‑parameter model)	3.2 s	0.52 s	~6.2× faster
Time‑to‑First‑Token (cold start)	1.8 s	0.8 s	23‑55 % reduction
GPU memory utilization (average)	78 %	92 %	Higher packing efficiency
Throughput under mixed‑model workload	120 req/s	158 req/s	~30 % more requests served

실험은 7B‑30B 파라미터 규모의 다양한 모델과 현실적인 서버리스 워크로드(버스트형 요청 패턴)를 대상으로 수행되었습니다. Tangram은 모델 로드 후 추론 지연을 희생하지 않으면서 일관되게 콜드‑스타트 페널티를 감소시켰습니다.

Practical Implications

서버리스 AI 비용 절감 – 로드 속도가 빨라지면 GPU 유휴 시간이 감소해 클라우드 제공자와 사용자 모두에게 요청당 청구 비용이 직접 감소합니다.
가용성 향상 – 이전에 “콜드‑스타트 스파이크”로 고통받던 챗봇, 코드 어시스턴트 등은 비활성 기간 이후에도 서브‑초 수준의 첫 토큰 응답을 보장할 수 있습니다.
다중 모델 호스팅 단순화 – 데이터 사이언스 팀은 메모리 파티션을 수동으로 관리하지 않고도 동일 GPU 클러스터에 다수의 파인‑튜닝된 LLM 변형을 노출할 수 있습니다.
엣지 배포 가능 – 제한된 GPU 메모리를 가진 디바이스(Jetson, RTX‑mobile 등)에서도 Tangram의 풀링 및 지연 캐시 덕분에 여러 소형 LLM을 온‑디맨드로 로드할 수 있어 로보틱스·AR 분야의 새로운 활용 사례가 열립니다.

개발자는 Tangram의 메모리‑풀 API를 통합하거나 기존 서버리스 플랫폼에 친화성 인식 스케줄러를 모방함으로써 이 개념을 적용할 수 있습니다.

Limitations & Future Work

모델 호환성 – Tangram은 모델이 동일한 아키텍처(예: 동일한 트랜스포머 블록 레이아웃)를 공유한다는 전제하에 동작합니다. 인코더‑디코더와 디코더‑전용 모델처럼 구조가 이질적인 경우 재사용 기회가 감소합니다.
GPU 인터커넥트 오버헤드 – 다중 GPU 노드에서 텐서를 GPU 간에 이동하는 데는 PCIe/NVLink 지연이 발생하며, 현재 프로토타입은 피어‑투‑피어 전송을 완전히 활용하지 못합니다.
보안 격리 – 테넌트 간 메모리 공유는 격리 문제를 야기하므로, 경량 암호화 또는 샌드박스 메커니즘이 필요합니다.
수백 개 모델에 대한 확장성 – 풀은 소수의 모델에 대해 잘 동작하지만, 수천 개 변형을 관리하려면 메타데이터 관리가 병목이 될 수 있습니다.

향후 연구 방향은 이기종 가속기 풀(CPU‑GPU‑TPU)로 확장, 다중 테넌트 안전성을 위한 보안 메모리 엔클레이브 도입, 요청 패턴 기반 예측 프리로드를 통한 콜드‑스타트 추가 감소 등이 포함됩니다.

Authors

Wenbin Zhu
Zhaoyan Shen
Zili Shao
Hongjun Dai
Feng Chen

Paper Information

arXiv ID: 2512.01357v1
Categories: cs.DC, cs.AI, cs.AR
Published: December 1, 2025
PDF: Download PDF