[Paper] Tangram: 通过 GPU 内存复用和亲和性加速无服务器 LLM 加载

发布: 4天前 (2025年12月1日 GMT+8 15:10)

7 min read

原文: arXiv

Source: arXiv - 2512.01357v1

Overview

Serverless 部署的大语言模型（LLM）承诺通过在多个用户之间共享 GPU 资源来实现“按使用付费”的 AI 服务。然而在实际使用中，冷启动延迟——尤其是将模型加载到 GPU 内存的时间——可能成为瓶颈，并且随模型规模线性增长。Tangram 通过复用空闲 GPU 内存并使用 GPU 亲和感感知的调度器来解决这一瓶颈，显著缩短模型加载时间，使无服务器 LLM 在真实工作负载下变得可行。

Key Contributions

统一的 GPU 内存池，让多个模型共享张量级别的参数存储，消除冗余拷贝。
按需 KV‑cache 分配，仅在需要时动态提供注意力缓存内存，为其他模型释放空间。
GPU 亲和感感知调度器，将进入的推理请求放置在已经拥有所需参数的 GPU 上，最大化复用。
原型实现，集成到流行的无服务器推理框架中，展示了相较于现有方案 最高 6.2 倍的模型加载加速 和 23‑55% 更低的首 token 时间（TTFT）。

Methodology

Tangram 的设计围绕三个易于理解的实用想法，即使没有深厚的系统专业知识也能快速上手：

1. 跨模型内存池化

与其为每个模型在 GPU 上分配全新的内存，Tangram 创建一个全局的 GPU 内存池。
当请求加载新模型时，系统会检查该模型的权重张量是否已经存在于池中（例如相似模型之间共享的层），若存在则直接复用，避免从主机内存完整拷贝。

2. 惰性 KV‑Cache 分配

Transformer 注意力使用的键值（KV）缓存会随生成文本的长度增长。
Tangram 按需为每个请求分配该缓存，生成结束后立即释放，从而为等待加载的其他模型腾出空间。

3. 亲和感感知调度

运行时会跟踪每块 GPU 当前持有的参数张量。
当新请求到达时，调度器倾向选择已经拥有所需张量的 GPU（高“亲和感”），从而减少需要通过 PCIe 传输的数据量。

该原型嵌入到现有的无服务器推理栈（例如 NVIDIA Triton 或自定义函数即服务层），在模型加载阶段拦截并透明地应用上述技巧。

Results & Findings

Metric	Baseline (state‑of‑the‑art)	Tangram	Improvement
Model load time (e.g., 13B‑parameter model)	3.2 s	0.52 s	~6.2× faster
Time‑to‑First‑Token (cold start)	1.8 s	0.8 s	23‑55 % reduction
GPU memory utilization (average)	78 %	92 %	Higher packing efficiency
Throughput under mixed‑model workload	120 req/s	158 req/s	~30 % more requests served

实验覆盖了 7B‑30B 参数规模的多种模型以及真实的无服务器工作负载（突发请求模式）。Tangram 在不牺牲模型加载后推理延迟的前提下，一贯降低了冷启动惩罚。

Practical Implications

降低无服务器 AI 成本 – 更快的加载意味着 GPU 空闲时间更短，直接转化为云服务提供商及其客户的更低每请求计费。
提升可用性 – 以前因“冷启动峰值”受限的应用（如聊天机器人、代码助手）现在即使在长时间空闲后也能保证亚秒级的首 token 响应。
简化多模型托管 – 数据科学团队可以在同一 GPU 集群上暴露大量基于同一基础 LLM 的微调变体，而无需手动管理内存分区。
面向边缘的部署 – 在 GPU 内存受限的设备（如 Jetson、RTX‑mobile）上，Tangram 的池化与惰性缓存能够实现对多个小型 LLM 的按需加载，打开机器人和 AR 等新场景的大门。

开发者可以通过集成 Tangram 的内存池 API，或在现有无服务器平台中模仿其亲和感调度器来采用这些概念。

Limitations & Future Work

模型兼容性 – Tangram 假设模型共享相同的架构（例如相同的 Transformer 块布局）。异构架构（如 encoder‑decoder 与仅解码器）会降低复用机会。
GPU 互连开销 – 在多 GPU 节点中，张量在 GPU 之间的移动仍会产生 PCIe/NVLink 延迟；当前原型并未充分利用点对点传输。
安全隔离 – 在租户之间共享内存会引发隔离问题，作者指出需要轻量级加密或沙箱机制。
对上百模型的可扩展性 – 虽然内存池在模型数量适中时表现良好，但管理成千上万变体的元数据可能成为瓶颈。

未来的研究方向包括将 Tangram 扩展到异构加速器池（如 CPU‑GPU‑TPU）、为多租户安全添加内存安全区，以及基于请求模式的预测预加载，以进一步压缩冷启动延迟。

Authors

Wenbin Zhu
Zhaoyan Shen
Zili Shao
Hongjun Dai
Feng Chen

Paper Information

arXiv ID: 2512.01357v1
Categories: cs.DC, cs.AI, cs.AR
Published: December 1, 2025
PDF: Download PDF