[Paper] Tangram: 通过 GPU 内存复用和亲和性加速无服务器 LLM 加载
Source: arXiv - 2512.01357v1
Overview
Serverless 部署的大语言模型(LLM)承诺通过在多个用户之间共享 GPU 资源来实现“按使用付费”的 AI 服务。然而在实际使用中,冷启动延迟——尤其是将模型加载到 GPU 内存的时间——可能成为瓶颈,并且随模型规模线性增长。Tangram 通过复用空闲 GPU 内存并使用 GPU 亲和感感知的调度器来解决这一瓶颈,显著缩短模型加载时间,使无服务器 LLM 在真实工作负载下变得可行。
Key Contributions
- 统一的 GPU 内存池,让多个模型共享张量级别的参数存储,消除冗余拷贝。
- 按需 KV‑cache 分配,仅在需要时动态提供注意力缓存内存,为其他模型释放空间。
- GPU 亲和感感知调度器,将进入的推理请求放置在已经拥有所需参数的 GPU 上,最大化复用。
- 原型实现,集成到流行的无服务器推理框架中,展示了相较于现有方案 最高 6.2 倍的模型加载加速 和 23‑55% 更低的首 token 时间(TTFT)。
Methodology
Tangram 的设计围绕三个易于理解的实用想法,即使没有深厚的系统专业知识也能快速上手:
1. 跨模型内存池化
- 与其为每个模型在 GPU 上分配全新的内存,Tangram 创建一个全局的 GPU 内存池。
- 当请求加载新模型时,系统会检查该模型的权重张量是否已经存在于池中(例如相似模型之间共享的层),若存在则直接复用,避免从主机内存完整拷贝。
2. 惰性 KV‑Cache 分配
- Transformer 注意力使用的键值(KV)缓存会随生成文本的长度增长。
- Tangram 按需 为每个请求分配该缓存,生成结束后立即释放,从而为等待加载的其他模型腾出空间。
3. 亲和感感知调度
- 运行时会跟踪每块 GPU 当前持有的参数张量。
- 当新请求到达时,调度器倾向选择已经拥有所需张量的 GPU(高“亲和感”),从而减少需要通过 PCIe 传输的数据量。
该原型嵌入到现有的无服务器推理栈(例如 NVIDIA Triton 或自定义函数即服务层),在模型加载阶段拦截并透明地应用上述技巧。
Results & Findings
| Metric | Baseline (state‑of‑the‑art) | Tangram | Improvement |
|---|---|---|---|
| Model load time (e.g., 13B‑parameter model) | 3.2 s | 0.52 s | ~6.2× faster |
| Time‑to‑First‑Token (cold start) | 1.8 s | 0.8 s | 23‑55 % reduction |
| GPU memory utilization (average) | 78 % | 92 % | Higher packing efficiency |
| Throughput under mixed‑model workload | 120 req/s | 158 req/s | ~30 % more requests served |
实验覆盖了 7B‑30B 参数规模的多种模型以及真实的无服务器工作负载(突发请求模式)。Tangram 在不牺牲模型加载后推理延迟的前提下,一贯降低了冷启动惩罚。
Practical Implications
- 降低无服务器 AI 成本 – 更快的加载意味着 GPU 空闲时间更短,直接转化为云服务提供商及其客户的更低每请求计费。
- 提升可用性 – 以前因“冷启动峰值”受限的应用(如聊天机器人、代码助手)现在即使在长时间空闲后也能保证亚秒级的首 token 响应。
- 简化多模型托管 – 数据科学团队可以在同一 GPU 集群上暴露大量基于同一基础 LLM 的微调变体,而无需手动管理内存分区。
- 面向边缘的部署 – 在 GPU 内存受限的设备(如 Jetson、RTX‑mobile)上,Tangram 的池化与惰性缓存能够实现对多个小型 LLM 的按需加载,打开机器人和 AR 等新场景的大门。
开发者可以通过集成 Tangram 的内存池 API,或在现有无服务器平台中模仿其亲和感调度器来采用这些概念。
Limitations & Future Work
- 模型兼容性 – Tangram 假设模型共享相同的架构(例如相同的 Transformer 块布局)。异构架构(如 encoder‑decoder 与仅解码器)会降低复用机会。
- GPU 互连开销 – 在多 GPU 节点中,张量在 GPU 之间的移动仍会产生 PCIe/NVLink 延迟;当前原型并未充分利用点对点传输。
- 安全隔离 – 在租户之间共享内存会引发隔离问题,作者指出需要轻量级加密或沙箱机制。
- 对上百模型的可扩展性 – 虽然内存池在模型数量适中时表现良好,但管理成千上万变体的元数据可能成为瓶颈。
未来的研究方向包括将 Tangram 扩展到异构加速器池(如 CPU‑GPU‑TPU)、为多租户安全添加内存安全区,以及基于请求模式的预测预加载,以进一步压缩冷启动延迟。
Authors
- Wenbin Zhu
- Zhaoyan Shen
- Zili Shao
- Hongjun Dai
- Feng Chen
Paper Information
- arXiv ID: 2512.01357v1
- Categories: cs.DC, cs.AI, cs.AR
- Published: December 1, 2025
- PDF: Download PDF