[论文] LLMServingSim 2.0：用于异构和解耦 LLM 服务基础设施的统一模拟器

发布: 3天前 (2026年2月26日 GMT+8 22:22)

7 分钟阅读

原文: arXiv

Source: arXiv - 2602.23036v1

（请提供您希望翻译的正文内容，我将为您翻译成简体中文，并保持原有的格式和代码块不变。）

概览

LLMServingSim 2.0 是一个系统级模拟器，让工程师能够探索异构加速器（GPU、TPU、以及新兴的近存储芯片）和解耦的服务架构（计算、内存和模型分片分离）在运行时的交互方式。通过在单一模拟循环中统一硬件和软件决策，该工具能够预测复杂 LLM 部署的延迟、内存使用和功耗，且接近真实世界的精度。

关键贡献

统一的运行时驱动仿真，将服务栈决策（批处理、路由、卸载）与详细的硬件行为耦合。
基于分析的可扩展性，可在不重写核心仿真的情况下插入新加速器、存储技术和互连。
高保真验证：在延迟、内存和功耗方面的平均误差 < 1 %，相较于生产集群。
快速周转：在单工作站上，端到端运行真实配置约需 10 分钟。
开源参考实现（在宽松许可证下发布），附带文档和示例工作负载。

方法论

Runtime Loop Integration – 模拟器对单个“服务时钟”进行建模，首先应用调度策略（例如，哪个请求分配给哪个加速器），然后更新硬件状态（资源占用、内存带宽、功耗），最后推进时间。该紧密循环捕捉诸如队列堆积或内存争用等反馈效应。
Profile‑Based Hardware Models – 每个加速器或内存模块通过 JSON/YAML 配置文件描述，文件中包含延迟表、带宽上限、功率曲线和计算吞吐量。添加新设备只需提供一个校准好的配置文件即可。
Disaggregated Component Modeling – 计算节点、内存池和模型分片仓库被实例化为通过可配置互连（PCIe、NVLink、CXL）链接的独立实体。数据移动成本根据所选路由策略按请求计算。
Serving Stack Hooks – 模拟器提供模拟流行服务框架（例如 vLLM、TGI）的 API。研究人员可以插入自定义批处理或路由算法，并即时看到其影响。
Validation Suite – 使用在多 GPU 集群上运行 GPT‑3 风格工作负载的真实跟踪数据来校准配置文件，并验证模拟的延迟、内存占用和功耗与实际测量值相匹配。

结果与发现

指标	模拟 vs. 实际	平均误差
端到端请求延迟	99.2 % 的观测值	0.8 %
峰值内存消耗	100.1 % 的观测值	0.1 %
功耗（集群范围）	98.9 % 的观测值	1.1 %
仿真时间（复杂配置）	~10 分钟 vs. 实际运行数小时	—

关键要点

异构性很重要 – 将高吞吐量的 GPU 与低延迟的近存加速器混合使用，在调度器了解权衡的情况下，可将尾部延迟降低最高 30 %。
解耦开销 – 将模型分片卸载到远程内存池会导致每个 token 约增加 ~2 µs；然而，同样的卸载可以释放片上内存，允许使用更大的批量大小，从而抵消该成本。
功耗感知路由 – 简单的功率上限策略可以在 < 5 % 延迟惩罚的情况下削减 15 % 的能耗，这种权衡若没有仿真器很难发现。

实际影响

加速器供应商 可以使用 LLMServingSim 2.0 在硅片尚未可用之前，在真实的服务流水线中对新芯片进行基准测试，从而指导设计决策（例如，内存带宽与计算密度的权衡）。
云服务提供商 获得了一个沙盒，用于评估解耦架构（基于 CXL 的内存池、可组合计算），并可基于混合工作负载下预测的尾延迟来制定 SLA 大小。
机器学习工程师 可以尝试自定义批处理或 token 路由策略，并即时看到它们对成本和延迟的影响，从而将迭代周期从数天加速到数分钟。
工具生态系统 — 由于模拟器仿真了流行的服务 API，能够集成到 CI 流水线中，实现新硬件‑软件协同设计的自动回归测试。

限制与未来工作

模型粒度 – 当前的配置抽象掉了微架构细节（例如缓存层次结构的影响），这些在超低延迟使用场景中可能很重要。
网络拓扑 – 仅预建模了少数标准互连拓扑；更为新颖的结构（例如分层 CXL 结构）需要手动扩展。
工作负载多样性 – 验证主要聚焦于自回归 LLM 推理；未来工作将扩展到检索增强生成、微调以及多模态模型。
动态扩展 – 模拟器假设集群规模是静态的；在路线图上加入对弹性扩展的支持（按需自动扩容节点）是计划之一。

LLMServingSim 2.0 搭建了硬件创新与服务系统设计之间的桥梁，为开发者提供了一种实用、快速且准确的方式来探索下一代异构、解耦的 LLM 基础设施。

作者

Jaehong Cho
Hyunmin Choi
Guseul Heo
Jongse Park

论文信息

arXiv ID: 2602.23036v1
分类: cs.DC, cs.AI
发表时间: 2026年2月26日
PDF: Download PDF

[论文] LLMServingSim 2.0：用于异构和解耦 LLM 服务基础设施的统一模拟器

概览

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] 通过锚定实现模型一致性

[Paper] SeeThrough3D：遮挡感知的3D控制在文本到图像生成中

[Paper] SOTAlign：通过最优传输的单模态视觉和语言模型的半监督对齐

[Paper] FlashOptim：用于内存高效训练的优化器