[Paper] Tangram: GPU 메모리 재사용 및 어피니티를 통한 Serverless LLM 로딩 가속
Source: arXiv - 2512.01357v1
Overview
서버리스 대형 언어 모델(LLM) 배포는 GPU 자원을 다수 사용자와 공유함으로써 “사용량 기반 요금” AI 서비스를 제공할 것을 약속합니다. 그러나 실제로는 특히 모델을 GPU 메모리로 로드하는 데 걸리는 콜드‑스타트 지연 시간이 모델 크기에 비례해 선형적으로 증가해 큰 장애가 됩니다. Tangram은 유휴 GPU 메모리를 재사용하고 GPU‑친화적인 스케줄링을 통해 워크로드를 배치함으로써 이 병목을 해소하고, 모델 로드 시간을 크게 단축해 서버리스 LLM을 실무에 적용 가능하게 만듭니다.
Key Contributions
- 통합 GPU 메모리 풀: 여러 모델이 텐서 수준 파라미터 저장소를 공유하도록 하여 중복 복사를 없앱니다.
- 온‑디맨드 KV‑캐시 할당: 필요할 때만 어텐션 캐시 메모리를 동적으로 할당해 다른 모델을 위한 공간을 확보합니다.
- GPU‑친화성 인식 스케줄러: 이미 필요한 파라미터를 보유하고 있는 GPU에 추론 요청을 배치해 재사용을 극대화합니다.
- 프로토타입 구현: 인기 있는 서버리스 추론 프레임워크와 통합하여 기존 솔루션 대비 6.2배 빠른 모델 로드와 **23‑55% 낮은 첫 토큰 도착 시간(TTFT)**을 달성했습니다.
Methodology
Tangram의 설계는 시스템 전문가가 아니어도 이해하기 쉬운 세 가지 실용적인 아이디어에 기반합니다:
1. 모델 간 메모리 풀링
- 각 모델의 가중치를 새 GPU 할당에 로드하는 대신, Tangram은 전역 GPU 메모리 풀을 생성합니다.
- 새로운 모델이 요청되면, 풀에 해당 가중치 텐서가 이미 존재하는지(예: 유사 모델 간 공유 레이어) 확인하고, 호스트 RAM에서 전체 복사 없이 직접 재사용합니다.
2. 지연된 KV‑캐시 할당
- 트랜스포머 어텐션에 사용되는 키‑값(KV) 캐시는 생성 텍스트 길이에 따라 커집니다.
- Tangram은 요청당 필요 시에만 이 캐시를 할당하고, 생성이 끝나는 즉시 해제해 다른 모델이 로드될 수 있는 공간을 확보합니다.
3. 친화성 인식 스케줄링
- 런타임은 현재 어떤 GPU가 어떤 파라미터 텐서를 보유하고 있는지 추적합니다.
- 요청이 들어오면 스케줄러는 이미 필요한 텐서를 가지고 있는 GPU(높은 “친화성”)를 우선 선택해 PCIe를 통한 데이터 전송량을 최소화합니다.
이 프로토타입은 기존 서버리스 추론 스택(예: NVIDIA Triton 또는 커스텀 Function‑as‑a‑Service 레이어)에 삽입되어 모델 로드 단계에서 위의 기법을 투명하게 적용합니다.
Results & Findings
| Metric | Baseline (state‑of‑the‑art) | Tangram | Improvement |
|---|---|---|---|
| Model load time (e.g., 13B‑parameter model) | 3.2 s | 0.52 s | ~6.2× faster |
| Time‑to‑First‑Token (cold start) | 1.8 s | 0.8 s | 23‑55 % reduction |
| GPU memory utilization (average) | 78 % | 92 % | Higher packing efficiency |
| Throughput under mixed‑model workload | 120 req/s | 158 req/s | ~30 % more requests served |
실험은 7B‑30B 파라미터 규모의 다양한 모델과 현실적인 서버리스 워크로드(버스트형 요청 패턴)를 대상으로 수행되었습니다. Tangram은 모델 로드 후 추론 지연을 희생하지 않으면서 일관되게 콜드‑스타트 페널티를 감소시켰습니다.
Practical Implications
- 서버리스 AI 비용 절감 – 로드 속도가 빨라지면 GPU 유휴 시간이 감소해 클라우드 제공자와 사용자 모두에게 요청당 청구 비용이 직접 감소합니다.
- 가용성 향상 – 이전에 “콜드‑스타트 스파이크”로 고통받던 챗봇, 코드 어시스턴트 등은 비활성 기간 이후에도 서브‑초 수준의 첫 토큰 응답을 보장할 수 있습니다.
- 다중 모델 호스팅 단순화 – 데이터 사이언스 팀은 메모리 파티션을 수동으로 관리하지 않고도 동일 GPU 클러스터에 다수의 파인‑튜닝된 LLM 변형을 노출할 수 있습니다.
- 엣지 배포 가능 – 제한된 GPU 메모리를 가진 디바이스(Jetson, RTX‑mobile 등)에서도 Tangram의 풀링 및 지연 캐시 덕분에 여러 소형 LLM을 온‑디맨드로 로드할 수 있어 로보틱스·AR 분야의 새로운 활용 사례가 열립니다.
개발자는 Tangram의 메모리‑풀 API를 통합하거나 기존 서버리스 플랫폼에 친화성 인식 스케줄러를 모방함으로써 이 개념을 적용할 수 있습니다.
Limitations & Future Work
- 모델 호환성 – Tangram은 모델이 동일한 아키텍처(예: 동일한 트랜스포머 블록 레이아웃)를 공유한다는 전제하에 동작합니다. 인코더‑디코더와 디코더‑전용 모델처럼 구조가 이질적인 경우 재사용 기회가 감소합니다.
- GPU 인터커넥트 오버헤드 – 다중 GPU 노드에서 텐서를 GPU 간에 이동하는 데는 PCIe/NVLink 지연이 발생하며, 현재 프로토타입은 피어‑투‑피어 전송을 완전히 활용하지 못합니다.
- 보안 격리 – 테넌트 간 메모리 공유는 격리 문제를 야기하므로, 경량 암호화 또는 샌드박스 메커니즘이 필요합니다.
- 수백 개 모델에 대한 확장성 – 풀은 소수의 모델에 대해 잘 동작하지만, 수천 개 변형을 관리하려면 메타데이터 관리가 병목이 될 수 있습니다.
향후 연구 방향은 이기종 가속기 풀(CPU‑GPU‑TPU)로 확장, 다중 테넌트 안전성을 위한 보안 메모리 엔클레이브 도입, 요청 패턴 기반 예측 프리로드를 통한 콜드‑스타트 추가 감소 등이 포함됩니다.
Authors
- Wenbin Zhu
- Zhaoyan Shen
- Zili Shao
- Hongjun Dai
- Feng Chen
Paper Information
- arXiv ID: 2512.01357v1
- Categories: cs.DC, cs.AI, cs.AR
- Published: December 1, 2025
- PDF: Download PDF