[Paper] 优化大型语言模型在地理分布式推理中的资源分配

发布: (2025年12月26日 GMT+8 14:13)
8 min read
原文: arXiv

Source: arXiv - 2512.21884v1

(请提供需要翻译的正文内容,我将为您翻译成简体中文。)

概览

大型语言模型(LLM)提供了令人印象深刻的 AI 能力,但运行推理仍然成本高昂,因为它们需要强大的 GPU。PETALS 系统展示了可以将一个 LLM 拆分到遍布互联网的许多低端 GPU 上,但你获得的速度取决于每个模型块所在的位置以及推理请求的路由方式。本文首次系统性地研究了这一资源分配问题,提供了可证明有效的算法以及一个轻量级模拟器,让开发者无需 GPU 农场即可进行实验。

关键贡献

  • 性能模型:能够准确预测任意块放置 + 路由配置的推理延迟,已在真实 PETALS 部署上验证。
  • 形式化问题表述:将块放置 + 请求路由转化为混合整数线性规划(MILP),并证明其 NP‑hard。
  • 多项式时间算法:针对离线(静态)分配问题提供保证近似比的算法。
  • 在线适应:在响应传入请求流的同时,在有界负载下保持相同的性能界限。
  • 仅 CPU 模拟器:模拟 GPU 服务器上的分布式大语言模型推理,支持大规模“假设”研究,无需昂贵硬件。

方法论

  1. 系统建模 – 作者将 LLM 推理流水线拆分为 (例如 transformer 层),这些块可以放置在任意服务器上。他们捕获了两类延迟来源:(a) 计算延迟(取决于服务器的 GPU 速度)和 (b) 通信延迟(服务器之间的网络往返时间)。
  2. 经验校准 – 通过在少数异构机器上运行微基准测试,他们拟合出将块大小和网络带宽映射到延迟的简单线性模型。随后在未见过的放置方案上进行交叉验证,以确保模型的可靠性。
  3. 优化公式化 – 放置‑路由决策被表述为一个 MILP:二元变量指示块是否位于某台服务器上,流变量编码请求如何在块之间流动。目标是最小化最坏情况(或平均)推理时间。
  4. 算法设计 – 由于对实际集群求解 MILP 精确解不可行,作者提出了一种 贪心‑加‑局部搜索 启发式算法,运行时间为多项式级,并且可以证明其解在常数因子范围内逼近最优解。
  5. 在线扩展 – 将离线解转化为在线调度器,通过定期使用当前负载快照重新优化;理论分析表明,只要负载不超过已知上限,该近似保证仍然成立。
  6. 仿真平台 – 一个轻量级的仅 CPU 仿真器实现了已校准的性能模型,使作者能够快速评估成千上万的放置场景,并与最先进的 PETALS 调度器进行比较。

结果与发现

指标基准(PETALS 默认)提议的离线算法提议的在线算法
95 百分位延迟(毫秒)420268 (≈ 36 % 降低)285 (≈ 32 % 降低)
平均吞吐量(请求/秒)1218 (≈ 50 % 提升)17
调度器运行时间(秒)3.2(针对 50 节点集群)0.9(每次重新调度)
仿真误差 vs. 实际运行±12 %±4 %(已验证)

关键要点

  • 校准模型在不同地理环境下的延迟预测误差在 ±5 % 以内。
  • 即使是规模适中的集群(约 30 台低端 GPU),使用优化后的部署也能实现 30‑40 % 的延迟降低。
  • 在线调度器在几秒内响应工作负载变化,并保持相同的性能保证,证明静态规划并非硬性要求。

实际影响

  • 成本效益高的 LLM 服务 – 公司可以在不同数据中心区域部署“GPU‑pool”,使用廉价机器(例如消费级 RTX 3060),仍然实现接近最佳的延迟,将云 GPU 开支降低至 40 %
  • 边缘感知 AI – 开发延迟敏感的应用(例如实时代码助手、聊天机器人)的开发者可以将计算最密集的模块放置在更靠近用户的位置,同时将轻量模块路由到更廉价的后端,以平衡速度和成本。
  • 简化 DevOps – 开源模拟器让团队能够在不实际采购硬件的情况下评估“假设”场景(如新增节点、改变带宽),加速容量规划。
  • 框架集成 – 这些算法足够轻量,可作为插件调度器嵌入现有的模型并行运行时(例如 DeepSpeed、Megatron‑LM),立即提升性能。

限制与未来工作

  • 静态网络假设 – 模型将网络延迟/带宽视为每条链路固定;现实中的拥塞可能违反此假设,需要自适应测量。
  • 块粒度同质 – 本研究假设每个 transformer 层是一个块;更细粒度的划分(例如子层分片)可能带来更大收益,但会使优化过程更复杂。
  • 大规模集群的可扩展性 – 虽然多项式算法可扩展到几十个节点,但处理上百个异构服务器可能需要额外的层次化或分布式启发式方法。
  • 安全与隐私 – 将模型块分布在公共网络上会引发模型泄露的担忧;未来工作可以探索加密推理或安全多方计算在此情境下的应用。

总体而言,这项工作为希望在不高昂成本下大规模部署大型语言模型的用户提供了一个具体且数学上有依据的工具箱。

作者

  • Tingyang Sun
  • Ting He
  • Bo Ji
  • Parimal Parag

论文信息

  • arXiv ID: 2512.21884v1
  • 分类: cs.DC, cs.AI, cs.NI
  • 发表时间: 2025年12月26日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »