[Paper] Tangram: 通过 GPU 内存复用和亲和性加速无服务器 LLM 加载

发布: (2025年12月1日 GMT+8 15:10)
7 min read
原文: arXiv

Source: arXiv - 2512.01357v1

Overview

Serverless 部署的大语言模型(LLM)承诺通过在多个用户之间共享 GPU 资源来实现“按使用付费”的 AI 服务。然而在实际使用中,冷启动延迟——尤其是将模型加载到 GPU 内存的时间——可能成为瓶颈,并且随模型规模线性增长。Tangram 通过复用空闲 GPU 内存并使用 GPU 亲和感感知的调度器来解决这一瓶颈,显著缩短模型加载时间,使无服务器 LLM 在真实工作负载下变得可行。

Key Contributions

  • 统一的 GPU 内存池,让多个模型共享张量级别的参数存储,消除冗余拷贝。
  • 按需 KV‑cache 分配,仅在需要时动态提供注意力缓存内存,为其他模型释放空间。
  • GPU 亲和感感知调度器,将进入的推理请求放置在已经拥有所需参数的 GPU 上,最大化复用。
  • 原型实现,集成到流行的无服务器推理框架中,展示了相较于现有方案 最高 6.2 倍的模型加载加速23‑55% 更低的首 token 时间(TTFT)

Methodology

Tangram 的设计围绕三个易于理解的实用想法,即使没有深厚的系统专业知识也能快速上手:

1. 跨模型内存池化

  • 与其为每个模型在 GPU 上分配全新的内存,Tangram 创建一个全局的 GPU 内存池。
  • 当请求加载新模型时,系统会检查该模型的权重张量是否已经存在于池中(例如相似模型之间共享的层),若存在则直接复用,避免从主机内存完整拷贝。

2. 惰性 KV‑Cache 分配

  • Transformer 注意力使用的键值(KV)缓存会随生成文本的长度增长。
  • Tangram 按需 为每个请求分配该缓存,生成结束后立即释放,从而为等待加载的其他模型腾出空间。

3. 亲和感感知调度

  • 运行时会跟踪每块 GPU 当前持有的参数张量。
  • 当新请求到达时,调度器倾向选择已经拥有所需张量的 GPU(高“亲和感”),从而减少需要通过 PCIe 传输的数据量。

该原型嵌入到现有的无服务器推理栈(例如 NVIDIA Triton 或自定义函数即服务层),在模型加载阶段拦截并透明地应用上述技巧。

Results & Findings

MetricBaseline (state‑of‑the‑art)TangramImprovement
Model load time (e.g., 13B‑parameter model)3.2 s0.52 s~6.2× faster
Time‑to‑First‑Token (cold start)1.8 s0.8 s23‑55 % reduction
GPU memory utilization (average)78 %92 %Higher packing efficiency
Throughput under mixed‑model workload120 req/s158 req/s~30 % more requests served

实验覆盖了 7B‑30B 参数规模的多种模型以及真实的无服务器工作负载(突发请求模式)。Tangram 在不牺牲模型加载后推理延迟的前提下,一贯降低了冷启动惩罚。

Practical Implications

  • 降低无服务器 AI 成本 – 更快的加载意味着 GPU 空闲时间更短,直接转化为云服务提供商及其客户的更低每请求计费。
  • 提升可用性 – 以前因“冷启动峰值”受限的应用(如聊天机器人、代码助手)现在即使在长时间空闲后也能保证亚秒级的首 token 响应。
  • 简化多模型托管 – 数据科学团队可以在同一 GPU 集群上暴露大量基于同一基础 LLM 的微调变体,而无需手动管理内存分区。
  • 面向边缘的部署 – 在 GPU 内存受限的设备(如 Jetson、RTX‑mobile)上,Tangram 的池化与惰性缓存能够实现对多个小型 LLM 的按需加载,打开机器人和 AR 等新场景的大门。

开发者可以通过集成 Tangram 的内存池 API,或在现有无服务器平台中模仿其亲和感调度器来采用这些概念。

Limitations & Future Work

  • 模型兼容性 – Tangram 假设模型共享相同的架构(例如相同的 Transformer 块布局)。异构架构(如 encoder‑decoder 与仅解码器)会降低复用机会。
  • GPU 互连开销 – 在多 GPU 节点中,张量在 GPU 之间的移动仍会产生 PCIe/NVLink 延迟;当前原型并未充分利用点对点传输。
  • 安全隔离 – 在租户之间共享内存会引发隔离问题,作者指出需要轻量级加密或沙箱机制。
  • 对上百模型的可扩展性 – 虽然内存池在模型数量适中时表现良好,但管理成千上万变体的元数据可能成为瓶颈。

未来的研究方向包括将 Tangram 扩展到异构加速器池(如 CPU‑GPU‑TPU)、为多租户安全添加内存安全区,以及基于请求模式的预测预加载,以进一步压缩冷启动延迟。

Authors

  • Wenbin Zhu
  • Zhaoyan Shen
  • Zili Shao
  • Hongjun Dai
  • Feng Chen

Paper Information

  • arXiv ID: 2512.01357v1
  • Categories: cs.DC, cs.AI, cs.AR
  • Published: December 1, 2025
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »