[Paper] MuxTune：通过时空骨干多路复用实现多租户数据中心中高效的多任务 LLM 微调

发布: 2天前 (2026年3月3日 GMT+8 19:34)

8 分钟阅读

原文: arXiv

Source: arXiv - 2603.02885v1

概述

为众多客户微调大型语言模型（LLMs）是现代 AI 数据中心的核心服务。常见的做法是为每个请求运行一个独立的 PEFT（参数高效微调）实例，这会导致 GPU 资源利用率只有一半，并且在任务争夺计算和通信带宽时产生高成本的停顿。MuxTune 提出了一种系统，共享 LLM 主干模型给多个微调任务，通过在空间上（并行算子执行）和时间上（任务交错）进行复用，从而显著提升利用率并大幅降低内存占用。

关键贡献

统一的 PEFT 表示，将多种微调方法（如 LoRA、adapter、prefix‑tuning）抽象为通用的共享骨干网络格式。
层次化协同调度，跨任务、算子、数据三个层级决定每个 PEFT 任务的何时与何处运行。
混合时空复用：任务被融合，使骨干网络的不同层能够同时服务多个微调流，同时保持每个任务的逻辑顺序。
双层混合并行，将数据并行和流水线并行结合用于共享骨干网络，降低 GPU 空闲周期。
基于块的数据对齐，将来自不同任务的 token 分组为“有效”块，消除在填充或任务特定 token 上的无效计算。
实验收益：相较于三种主流 PEFT 服务基线，吞吐量提升最高 2.33 倍，内存使用降低 5.29 倍。

方法论

模块化骨干抽象
- 将 LLM 的 transformer 层视为一个 共享服务，可被任何 PEFT 任务调用。
- 每个任务的轻量级适配器作为插件模块附加，使得相同的核心权重可以复用而无需复制。
分层协同调度
- 任务层面：全局调度器将兼容的微调作业（批量大小、序列长度相似）分组为 融合组。
- 算子层面：在组内，调度器决定哪些 transformer 子层（例如 attention、feed‑forward）在任务之间并行运行（空间复用），哪些顺序运行（时间复用）。
- 数据层面：输入序列被切分为块，在任务之间对齐，使单个 GPU kernel 能一次处理来自多个作业的混合 token 批次。
双层混合并行
- 第 1 层（任务内部）：对每个任务的适配器采用经典的数据并行，梯度更新保持本地。
- 第 2 层（任务之间）：在共享骨干上使用流水线并行，使下一个任务的块在前一个任务完成后续层时即可启动。
实现细节
- 基于 PyTorch 和 NVIDIA 的 NCCL，实现快速的跨 GPU 通信。
- 自定义 CUDA kernel 处理混合 token 块，避免为每个任务单独启动 kernel 的开销。
- 轻量级运行时监控 GPU 内存压力，并动态重塑融合组以保持在内存限制内。

结果与发现

基线	吞吐量 (samples/s)	GPU 内存 (GB)
单任务 PEFT（最先进）	1.0× (reference)	12
并行任务 Naïve（无共享）	0.78×	18
现有多任务 PEFT 系统	1.45×	9
MuxTune	2.33×	2.3 GB（≈5.29× 减少）

吞吐量几乎线性增长，直至共享骨干网络成为瓶颈；此后调度器会自动限制新任务的启动。
内存节省主要来自于只存储一份骨干网络权重并在任务间复用；适配器仍是唯一的每任务开销。
延迟影响适度：混合时序复用每批次额外增加 ≤ 15 ms，对大多数微调 API 工作负载而言可忽略不计。
可扩展性在 8‑GPU 集群上的测试显示出一致的提升，证实该方法在单节点和多节点部署中均有效。

实际影响

降低 AI 服务提供商的成本 – 通过将内存使用量降低 > 5×，提供商可以在相同的 GPU 资源上容纳更多微调任务，从而降低硬件支出和能源消耗。
更高的 SLA 达成率 – 吞吐量的提升意味着请求排队时间更短，为需要快速模型定制的客户带来更严格的延迟 SLA。
运维简化 – 运维人员不再需要为每个微调请求启动专用容器；单个 MuxTune 服务即可承载数十个并发任务，简化编排和监控。
开发者灵活性 – 由于 MuxTune 支持任何可用统一表示形式表达的 PEFT 方法，开发者可以继续使用其偏好的适配器，无需更改代码。
边缘到云的连续性潜力 – 相同的复用思路可以应用于边缘的较小 GPU 集群，实现本地微调并获得同等的效率提升。

限制与未来工作

任务兼容性约束 – Fusion 组需要相似的序列长度和批量大小；高度异构的工作负载可能仍需使用独立实例。
调度器开销 – 分层调度器会引入一定的 CPU 开销，在极大规模（数百个并发任务）时可能变得显著。
模型规模上限 – 实验聚焦于 7‑B 到 13‑B 参数的模型；扩展到 70‑B 以上的模型可能需要额外的内存感知分区策略。
未来方向 – 作者计划 (1) 将统一的 PEFT 抽象扩展至检索增强微调，(2) 融入基于强化学习的调度以应对动态工作负载，(3) 探索硬件层面的支持（例如 NVIDIA Hopper 的张量核调度），进一步降低 kernel 启动延迟。

作者

Chunyu Xue
Yi Pan
Weihao Cui
Quan Chen
Shulai Zhang
Bingsheng He
Minyi Guo

论文信息

arXiv ID: 2603.02885v1
分类: cs.DC
发布: 2026年3月3日
PDF: 下载 PDF

[Paper] MuxTune：通过时空骨干多路复用实现多租户数据中心中高效的多任务 LLM 微调

概述

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] 流处理系统中的性能优化：实验驱动的 Kafka Streams 配置调优

[Paper] 远端的 Lambda：飞行 Lambda 与轮式 Lambda 的故事

[Paper] 时间的语义之箭, 第二部分：Open Atomic Ethernet 的语义

[Paper] 数据中心的幽灵：链路抖动、拓扑知识失效与FITO类别错误