[Paper] ScaleSim:为大规模多智能体仿真提供基于调用距离的内存管理
Source: arXiv - 2601.21473v1
概览
本文介绍了 ScaleSim,这是一种系统,使在单个仿真中运行成千上万个基于 LLM 的代理成为可能,而不会耗尽 GPU 内存。作者观察到代理仅在偶尔活跃,并且可以预测它们未来的激活顺序,因而提出了一种新的“调用距离”抽象,用于更智能的内存预取和驱逐,在真实的仿真工作负载上实现了显著的加速。
关键贡献
- Invocation Distance 抽象 – 一种轻量级度量,用于估算每个代理的下一个 LLM 请求的距离,从而实现主动的内存管理。
- 主动预取 & 基于优先级的驱逐 – 对于调用距离较短的代理保持常驻,而对未来调用距离较远的代理进行换出,以降低 GPU 内存压力。
- 模块化内存接口 – 支持异构的每代理状态(模型权重、前缀缓存、适配器等),无需硬编码任何特定表示。
- ScaleSim 运行时 – 一个即插即用的服务层,可与现有 LLM 后端(如 SGLang)集成,在多代理基准测试中实现最高 1.74× 的加速。
- 全面的工作负载分析 – 对真实仿真工作负载进行特征化,以验证代理激活的稀疏性和调用顺序的可预测性。
方法论
-
工作负载特征化 – 作者对多个代表性的多代理仿真(例如游戏 AI、经济建模)进行画像,发现两种重复出现的模式:
- 稀疏激活:在任意给定步骤中,只有少数代理实际发出 LLM 调用。
- 可预测顺序:可以从仿真的控制流中估计出代理被调用的顺序。
-
定义调用距离 – 对于每个代理,系统跟踪其下一个预期 LLM 请求之前的步数(或时间)。该距离在仿真进行时持续更新。
-
内存管理策略 –
- 预取:当代理的距离低于可配置阈值时,其私有状态(模型分片、缓存、适配器)会主动加载到 GPU 上。
- 驱逐:距离最大的代理优先被驱逐,为即将到来的代理腾出空间。
- 该策略实现为以调用距离为键的优先队列,支持 O(log N) 更新。
-
模块化状态接口 – 开发者可以通过实现一个小型 API,插入自定义的每代理数据结构(例如 LoRA 适配器、提示前缀);ScaleSim 负责在主机和设备内存之间移动这些数据块。
-
集成与评估 – ScaleSim 基于 SGLang 服务栈构建。基准测试比较了原始 SGLang、SGLang + 朴素交换以及 ScaleSim 在不同代理数量和模型规模下的表现。
结果与发现
| 指标 | 基准 (SGLang) | SGLang + 简单交换 | ScaleSim |
|---|---|---|---|
| 吞吐量 (agents · steps/s) | 1.0× | 1.12× | 1.74× |
| GPU 峰值内存使用 | 100 % (max) | 78 % (due to aggressive swapping) | 55 % |
| 每次 LLM 调用的延迟 (ms) | 120 | 135 (swap overhead) | 95 |
| 扩展至 #agents | 500 | 800 | >1500 |
- 加速:ScaleSim 的预取‑驱逐策略将平均每次调用的延迟降低约 20 %,在仿真运行超过 1 k agents 时整体吞吐量提升超过两倍。
- 内存节省:通过仅保留“近期” agents 在显存中,GPU 内存消耗大约降低了一半,使得可以使用更大的基础模型(例如 13 B 参数)。
- 鲁棒性:系统能够平稳处理激活模式的动态变化;调用距离度量能够即时自适应,无需完整的重新分析。
实际影响
- 游戏与虚拟世界 AI:工作室现在可以在不需要大量 GPU 的情况下,用 LLM 驱动的 NPC 填充庞大的开放世界环境。
- 经济与社会模拟:研究人员可以将代理数量扩展到数万,从而实现更丰富的情景测试(例如,市场动态、疫情建模)。
- 边缘与云混合部署:模块化内存接口允许开发者将不常用的代理状态卸载到主机 RAM 或远程存储,仅将活跃代理保留在昂贵的 GPU 实例上。
- 成本降低:更低的 GPU 内存占用直接转化为更便宜的云 GPU 租用费用,或在单台工作站上容纳更多代理的能力。
- 开发者生产力:ScaleSim 作为现有 LLM 服务栈上的轻量层运行,这意味着团队可以在不重写模拟逻辑的情况下采用它。
限制与未来工作
- 预测准确性:调用距离依赖于仿真控制流相对可预测;高度随机或对抗性的代理调度可能会降低性能。
- 距离更新的开销:维护优先队列会带来适度的 CPU 开销,在超高频仿真中可能变得显著。
- 对多 GPU / 分布式环境的支持:当前原型面向单个 GPU;将该策略扩展到多设备或集群仍需后续探索。
- 动态模型更新:系统假设每个代理的模型是静态的;实时微调或适配器切换需要额外的记录工作。
作者建议研究基于学习的调用距离预测器,结合分布式张量并行,并探索与 LLM 推理内核更紧密的耦合,以进一步降低延迟。
作者
- Zaifeng Pan
- Yipeng Shen
- Zhengding Hu
- Zhuang Wang
- Aninda Manocha
- Zheng Wang
- Zhongkai Yu
- Yue Guan
- Yufei Ding
论文信息
- arXiv ID: 2601.21473v1
- 分类: cs.AI, cs.DC
- 发表时间: 2026年1月29日
- PDF: 下载 PDF