[论文] LLMServingSim 2.0:用于异构和解耦 LLM 服务基础设施的统一模拟器

发布: (2026年2月26日 GMT+8 22:22)
7 分钟阅读
原文: arXiv

Source: arXiv - 2602.23036v1

(请提供您希望翻译的正文内容,我将为您翻译成简体中文,并保持原有的格式和代码块不变。)

概览

LLMServingSim 2.0 是一个系统级模拟器,让工程师能够探索异构加速器(GPU、TPU、以及新兴的近存储芯片)和解耦的服务架构(计算、内存和模型分片分离)在运行时的交互方式。通过在单一模拟循环中统一硬件和软件决策,该工具能够预测复杂 LLM 部署的延迟、内存使用和功耗,且接近真实世界的精度。

关键贡献

  • 统一的运行时驱动仿真,将服务栈决策(批处理、路由、卸载)与详细的硬件行为耦合。
  • 基于分析的可扩展性,可在不重写核心仿真的情况下插入新加速器、存储技术和互连。
  • 高保真验证:在延迟、内存和功耗方面的平均误差 < 1 %,相较于生产集群。
  • 快速周转:在单工作站上,端到端运行真实配置约需 10 分钟。
  • 开源参考实现(在宽松许可证下发布),附带文档和示例工作负载。

方法论

  1. Runtime Loop Integration – 模拟器对单个“服务时钟”进行建模,首先应用调度策略(例如,哪个请求分配给哪个加速器),然后更新硬件状态(资源占用、内存带宽、功耗),最后推进时间。该紧密循环捕捉诸如队列堆积或内存争用等反馈效应。

  2. Profile‑Based Hardware Models – 每个加速器或内存模块通过 JSON/YAML 配置文件描述,文件中包含延迟表、带宽上限、功率曲线和计算吞吐量。添加新设备只需提供一个校准好的配置文件即可。

  3. Disaggregated Component Modeling – 计算节点、内存池和模型分片仓库被实例化为通过可配置互连(PCIe、NVLink、CXL)链接的独立实体。数据移动成本根据所选路由策略按请求计算。

  4. Serving Stack Hooks – 模拟器提供模拟流行服务框架(例如 vLLM、TGI)的 API。研究人员可以插入自定义批处理或路由算法,并即时看到其影响。

  5. Validation Suite – 使用在多 GPU 集群上运行 GPT‑3 风格工作负载的真实跟踪数据来校准配置文件,并验证模拟的延迟、内存占用和功耗与实际测量值相匹配。

结果与发现

指标模拟 vs. 实际平均误差
端到端请求延迟99.2 % 的观测值0.8 %
峰值内存消耗100.1 % 的观测值0.1 %
功耗(集群范围)98.9 % 的观测值1.1 %
仿真时间(复杂配置)~10 分钟 vs. 实际运行数小时

关键要点

  • 异构性很重要 – 将高吞吐量的 GPU 与低延迟的近存加速器混合使用,在调度器了解权衡的情况下,可将尾部延迟降低最高 30 %。
  • 解耦开销 – 将模型分片卸载到远程内存池会导致每个 token 约增加 ~2 µs;然而,同样的卸载可以释放片上内存,允许使用更大的批量大小,从而抵消该成本。
  • 功耗感知路由 – 简单的功率上限策略可以在 < 5 % 延迟惩罚的情况下削减 15 % 的能耗,这种权衡若没有仿真器很难发现。

实际影响

  • 加速器供应商 可以使用 LLMServingSim 2.0 在硅片尚未可用之前,在真实的服务流水线中对新芯片进行基准测试,从而指导设计决策(例如,内存带宽与计算密度的权衡)。
  • 云服务提供商 获得了一个沙盒,用于评估解耦架构(基于 CXL 的内存池、可组合计算),并可基于混合工作负载下预测的尾延迟来制定 SLA 大小。
  • 机器学习工程师 可以尝试自定义批处理或 token 路由策略,并即时看到它们对成本和延迟的影响,从而将迭代周期从数天加速到数分钟。
  • 工具生态系统 — 由于模拟器仿真了流行的服务 API,能够集成到 CI 流水线中,实现新硬件‑软件协同设计的自动回归测试。

限制与未来工作

  • 模型粒度 – 当前的配置抽象掉了微架构细节(例如缓存层次结构的影响),这些在超低延迟使用场景中可能很重要。
  • 网络拓扑 – 仅预建模了少数标准互连拓扑;更为新颖的结构(例如分层 CXL 结构)需要手动扩展。
  • 工作负载多样性 – 验证主要聚焦于自回归 LLM 推理;未来工作将扩展到检索增强生成、微调以及多模态模型。
  • 动态扩展 – 模拟器假设集群规模是静态的;在路线图上加入对弹性扩展的支持(按需自动扩容节点)是计划之一。

LLMServingSim 2.0 搭建了硬件创新与服务系统设计之间的桥梁,为开发者提供了一种实用、快速且准确的方式来探索下一代异构、解耦的 LLM 基础设施。

作者

  • Jaehong Cho
  • Hyunmin Choi
  • Guseul Heo
  • Jongse Park

论文信息

  • arXiv ID: 2602.23036v1
  • 分类: cs.DC, cs.AI
  • 发表时间: 2026年2月26日
  • PDF: Download PDF
0 浏览
Back to Blog

相关文章

阅读更多 »