[Paper] MuxTune:通过时空骨干多路复用实现多租户数据中心中高效的多任务 LLM 微调
发布: (2026年3月3日 GMT+8 19:34)
8 分钟阅读
原文: arXiv
Source: arXiv - 2603.02885v1
概述
为众多客户微调大型语言模型(LLMs)是现代 AI 数据中心的核心服务。常见的做法是为每个请求运行一个独立的 PEFT(参数高效微调)实例,这会导致 GPU 资源利用率只有一半,并且在任务争夺计算和通信带宽时产生高成本的停顿。MuxTune 提出了一种系统,共享 LLM 主干模型给多个微调任务,通过在空间上(并行算子执行)和时间上(任务交错)进行复用,从而显著提升利用率并大幅降低内存占用。
关键贡献
- 统一的 PEFT 表示,将多种微调方法(如 LoRA、adapter、prefix‑tuning)抽象为通用的共享骨干网络格式。
- 层次化协同调度,跨任务、算子、数据三个层级决定每个 PEFT 任务的 何时 与 何处 运行。
- 混合时空复用:任务被融合,使骨干网络的不同层能够同时服务多个微调流,同时保持每个任务的逻辑顺序。
- 双层混合并行,将数据并行和流水线并行结合用于共享骨干网络,降低 GPU 空闲周期。
- 基于块的数据对齐,将来自不同任务的 token 分组为“有效”块,消除在填充或任务特定 token 上的无效计算。
- 实验收益:相较于三种主流 PEFT 服务基线,吞吐量提升最高 2.33 倍,内存使用降低 5.29 倍。
方法论
-
模块化骨干抽象
- 将 LLM 的 transformer 层视为一个 共享服务,可被任何 PEFT 任务调用。
- 每个任务的轻量级适配器作为插件模块附加,使得相同的核心权重可以复用而无需复制。
-
分层协同调度
- 任务层面:全局调度器将兼容的微调作业(批量大小、序列长度相似)分组为 融合组。
- 算子层面:在组内,调度器决定哪些 transformer 子层(例如 attention、feed‑forward)在任务之间并行运行(空间复用),哪些顺序运行(时间复用)。
- 数据层面:输入序列被切分为 块,在任务之间对齐,使单个 GPU kernel 能一次处理来自多个作业的混合 token 批次。
-
双层混合并行
- 第 1 层(任务内部):对每个任务的适配器采用经典的数据并行,梯度更新保持本地。
- 第 2 层(任务之间):在共享骨干上使用流水线并行,使下一个任务的块在前一个任务完成后续层时即可启动。
-
实现细节
- 基于 PyTorch 和 NVIDIA 的 NCCL,实现快速的跨 GPU 通信。
- 自定义 CUDA kernel 处理混合 token 块,避免为每个任务单独启动 kernel 的开销。
- 轻量级运行时监控 GPU 内存压力,并动态重塑融合组以保持在内存限制内。
结果与发现
| 基线 | 吞吐量 (samples/s) | GPU 内存 (GB) |
|---|---|---|
| 单任务 PEFT(最先进) | 1.0× (reference) | 12 |
| 并行任务 Naïve(无共享) | 0.78× | 18 |
| 现有多任务 PEFT 系统 | 1.45× | 9 |
| MuxTune | 2.33× | 2.3 GB(≈5.29× 减少) |
- 吞吐量几乎线性增长,直至共享骨干网络成为瓶颈;此后调度器会自动限制新任务的启动。
- 内存节省主要来自于只存储一份骨干网络权重并在任务间复用;适配器仍是唯一的每任务开销。
- 延迟影响适度:混合时序复用每批次额外增加 ≤ 15 ms,对大多数微调 API 工作负载而言可忽略不计。
- 可扩展性在 8‑GPU 集群上的测试显示出一致的提升,证实该方法在单节点和多节点部署中均有效。
实际影响
- 降低 AI 服务提供商的成本 – 通过将内存使用量降低 > 5×,提供商可以在相同的 GPU 资源上容纳更多微调任务,从而降低硬件支出和能源消耗。
- 更高的 SLA 达成率 – 吞吐量的提升意味着请求排队时间更短,为需要快速模型定制的客户带来更严格的延迟 SLA。
- 运维简化 – 运维人员不再需要为每个微调请求启动专用容器;单个 MuxTune 服务即可承载数十个并发任务,简化编排和监控。
- 开发者灵活性 – 由于 MuxTune 支持任何可用统一表示形式表达的 PEFT 方法,开发者可以继续使用其偏好的适配器,无需更改代码。
- 边缘到云的连续性潜力 – 相同的复用思路可以应用于边缘的较小 GPU 集群,实现本地微调并获得同等的效率提升。
限制与未来工作
- 任务兼容性约束 – Fusion 组需要相似的序列长度和批量大小;高度异构的工作负载可能仍需使用独立实例。
- 调度器开销 – 分层调度器会引入一定的 CPU 开销,在极大规模(数百个并发任务)时可能变得显著。
- 模型规模上限 – 实验聚焦于 7‑B 到 13‑B 参数的模型;扩展到 70‑B 以上的模型可能需要额外的内存感知分区策略。
- 未来方向 – 作者计划 (1) 将统一的 PEFT 抽象扩展至检索增强微调,(2) 融入基于强化学习的调度以应对动态工作负载,(3) 探索硬件层面的支持(例如 NVIDIA Hopper 的张量核调度),进一步降低 kernel 启动延迟。
作者
- Chunyu Xue
- Yi Pan
- Weihao Cui
- Quan Chen
- Shulai Zhang
- Bingsheng He
- Minyi Guo
论文信息
- arXiv ID: 2603.02885v1
- 分类: cs.DC
- 发布: 2026年3月3日
- PDF: 下载 PDF