[Paper] MuxTune:通过时空骨干多路复用实现多租户数据中心中高效的多任务 LLM 微调

发布: (2026年3月3日 GMT+8 19:34)
8 分钟阅读
原文: arXiv

Source: arXiv - 2603.02885v1

概述

为众多客户微调大型语言模型(LLMs)是现代 AI 数据中心的核心服务。常见的做法是为每个请求运行一个独立的 PEFT(参数高效微调)实例,这会导致 GPU 资源利用率只有一半,并且在任务争夺计算和通信带宽时产生高成本的停顿。MuxTune 提出了一种系统,共享 LLM 主干模型给多个微调任务,通过在空间上(并行算子执行)和时间上(任务交错)进行复用,从而显著提升利用率并大幅降低内存占用。

关键贡献

  • 统一的 PEFT 表示,将多种微调方法(如 LoRA、adapter、prefix‑tuning)抽象为通用的共享骨干网络格式。
  • 层次化协同调度,跨任务、算子、数据三个层级决定每个 PEFT 任务的 何时何处 运行。
  • 混合时空复用:任务被融合,使骨干网络的不同层能够同时服务多个微调流,同时保持每个任务的逻辑顺序。
  • 双层混合并行,将数据并行和流水线并行结合用于共享骨干网络,降低 GPU 空闲周期。
  • 基于块的数据对齐,将来自不同任务的 token 分组为“有效”块,消除在填充或任务特定 token 上的无效计算。
  • 实验收益:相较于三种主流 PEFT 服务基线,吞吐量提升最高 2.33 倍,内存使用降低 5.29 倍

方法论

  1. 模块化骨干抽象

    • 将 LLM 的 transformer 层视为一个 共享服务,可被任何 PEFT 任务调用。
    • 每个任务的轻量级适配器作为插件模块附加,使得相同的核心权重可以复用而无需复制。
  2. 分层协同调度

    • 任务层面:全局调度器将兼容的微调作业(批量大小、序列长度相似)分组为 融合组
    • 算子层面:在组内,调度器决定哪些 transformer 子层(例如 attention、feed‑forward)在任务之间并行运行(空间复用),哪些顺序运行(时间复用)。
    • 数据层面:输入序列被切分为 ,在任务之间对齐,使单个 GPU kernel 能一次处理来自多个作业的混合 token 批次。
  3. 双层混合并行

    • 第 1 层(任务内部):对每个任务的适配器采用经典的数据并行,梯度更新保持本地。
    • 第 2 层(任务之间):在共享骨干上使用流水线并行,使下一个任务的块在前一个任务完成后续层时即可启动。
  4. 实现细节

    • 基于 PyTorch 和 NVIDIA 的 NCCL,实现快速的跨 GPU 通信。
    • 自定义 CUDA kernel 处理混合 token 块,避免为每个任务单独启动 kernel 的开销。
    • 轻量级运行时监控 GPU 内存压力,并动态重塑融合组以保持在内存限制内。

结果与发现

基线吞吐量 (samples/s)GPU 内存 (GB)
单任务 PEFT(最先进)1.0× (reference)12
并行任务 Naïve(无共享)0.78×18
现有多任务 PEFT 系统1.45×9
MuxTune2.33×2.3 GB(≈5.29× 减少)
  • 吞吐量几乎线性增长,直至共享骨干网络成为瓶颈;此后调度器会自动限制新任务的启动。
  • 内存节省主要来自于只存储一份骨干网络权重并在任务间复用;适配器仍是唯一的每任务开销。
  • 延迟影响适度:混合时序复用每批次额外增加 ≤ 15 ms,对大多数微调 API 工作负载而言可忽略不计。
  • 可扩展性在 8‑GPU 集群上的测试显示出一致的提升,证实该方法在单节点和多节点部署中均有效。

实际影响

  • 降低 AI 服务提供商的成本 – 通过将内存使用量降低 > 5×,提供商可以在相同的 GPU 资源上容纳更多微调任务,从而降低硬件支出和能源消耗。
  • 更高的 SLA 达成率 – 吞吐量的提升意味着请求排队时间更短,为需要快速模型定制的客户带来更严格的延迟 SLA。
  • 运维简化 – 运维人员不再需要为每个微调请求启动专用容器;单个 MuxTune 服务即可承载数十个并发任务,简化编排和监控。
  • 开发者灵活性 – 由于 MuxTune 支持任何可用统一表示形式表达的 PEFT 方法,开发者可以继续使用其偏好的适配器,无需更改代码。
  • 边缘到云的连续性潜力 – 相同的复用思路可以应用于边缘的较小 GPU 集群,实现本地微调并获得同等的效率提升。

限制与未来工作

  • 任务兼容性约束 – Fusion 组需要相似的序列长度和批量大小;高度异构的工作负载可能仍需使用独立实例。
  • 调度器开销 – 分层调度器会引入一定的 CPU 开销,在极大规模(数百个并发任务)时可能变得显著。
  • 模型规模上限 – 实验聚焦于 7‑B 到 13‑B 参数的模型;扩展到 70‑B 以上的模型可能需要额外的内存感知分区策略。
  • 未来方向 – 作者计划 (1) 将统一的 PEFT 抽象扩展至检索增强微调,(2) 融入基于强化学习的调度以应对动态工作负载,(3) 探索硬件层面的支持(例如 NVIDIA Hopper 的张量核调度),进一步降低 kernel 启动延迟。

作者

  • Chunyu Xue
  • Yi Pan
  • Weihao Cui
  • Quan Chen
  • Shulai Zhang
  • Bingsheng He
  • Minyi Guo

论文信息

  • arXiv ID: 2603.02885v1
  • 分类: cs.DC
  • 发布: 2026年3月3日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »