[Paper] ScaleSim:为大规模多智能体仿真提供基于调用距离的内存管理

发布: (2026年1月29日 GMT+8 17:52)
7 分钟阅读
原文: arXiv

Source: arXiv - 2601.21473v1

概览

本文介绍了 ScaleSim,这是一种系统,使在单个仿真中运行成千上万个基于 LLM 的代理成为可能,而不会耗尽 GPU 内存。作者观察到代理仅在偶尔活跃,并且可以预测它们未来的激活顺序,因而提出了一种新的“调用距离”抽象,用于更智能的内存预取和驱逐,在真实的仿真工作负载上实现了显著的加速。

关键贡献

  • Invocation Distance 抽象 – 一种轻量级度量,用于估算每个代理的下一个 LLM 请求的距离,从而实现主动的内存管理。
  • 主动预取 & 基于优先级的驱逐 – 对于调用距离较短的代理保持常驻,而对未来调用距离较远的代理进行换出,以降低 GPU 内存压力。
  • 模块化内存接口 – 支持异构的每代理状态(模型权重、前缀缓存、适配器等),无需硬编码任何特定表示。
  • ScaleSim 运行时 – 一个即插即用的服务层,可与现有 LLM 后端(如 SGLang)集成,在多代理基准测试中实现最高 1.74× 的加速。
  • 全面的工作负载分析 – 对真实仿真工作负载进行特征化,以验证代理激活的稀疏性和调用顺序的可预测性。

方法论

  1. 工作负载特征化 – 作者对多个代表性的多代理仿真(例如游戏 AI、经济建模)进行画像,发现两种重复出现的模式:

    • 稀疏激活:在任意给定步骤中,只有少数代理实际发出 LLM 调用。
    • 可预测顺序:可以从仿真的控制流中估计出代理被调用的顺序。
  2. 定义调用距离 – 对于每个代理,系统跟踪其下一个预期 LLM 请求之前的步数(或时间)。该距离在仿真进行时持续更新。

  3. 内存管理策略

    • 预取:当代理的距离低于可配置阈值时,其私有状态(模型分片、缓存、适配器)会主动加载到 GPU 上。
    • 驱逐:距离最大的代理优先被驱逐,为即将到来的代理腾出空间。
    • 该策略实现为以调用距离为键的优先队列,支持 O(log N) 更新。
  4. 模块化状态接口 – 开发者可以通过实现一个小型 API,插入自定义的每代理数据结构(例如 LoRA 适配器、提示前缀);ScaleSim 负责在主机和设备内存之间移动这些数据块。

  5. 集成与评估 – ScaleSim 基于 SGLang 服务栈构建。基准测试比较了原始 SGLang、SGLang + 朴素交换以及 ScaleSim 在不同代理数量和模型规模下的表现。

结果与发现

指标基准 (SGLang)SGLang + 简单交换ScaleSim
吞吐量 (agents · steps/s)1.0×1.12×1.74×
GPU 峰值内存使用100 % (max)78 % (due to aggressive swapping)55 %
每次 LLM 调用的延迟 (ms)120135 (swap overhead)95
扩展至 #agents500800>1500
  • 加速:ScaleSim 的预取‑驱逐策略将平均每次调用的延迟降低约 20 %,在仿真运行超过 1 k agents 时整体吞吐量提升超过两倍。
  • 内存节省:通过仅保留“近期” agents 在显存中,GPU 内存消耗大约降低了一半,使得可以使用更大的基础模型(例如 13 B 参数)。
  • 鲁棒性:系统能够平稳处理激活模式的动态变化;调用距离度量能够即时自适应,无需完整的重新分析。

实际影响

  • 游戏与虚拟世界 AI:工作室现在可以在不需要大量 GPU 的情况下,用 LLM 驱动的 NPC 填充庞大的开放世界环境。
  • 经济与社会模拟:研究人员可以将代理数量扩展到数万,从而实现更丰富的情景测试(例如,市场动态、疫情建模)。
  • 边缘与云混合部署:模块化内存接口允许开发者将不常用的代理状态卸载到主机 RAM 或远程存储,仅将活跃代理保留在昂贵的 GPU 实例上。
  • 成本降低:更低的 GPU 内存占用直接转化为更便宜的云 GPU 租用费用,或在单台工作站上容纳更多代理的能力。
  • 开发者生产力:ScaleSim 作为现有 LLM 服务栈上的轻量层运行,这意味着团队可以在不重写模拟逻辑的情况下采用它。

限制与未来工作

  • 预测准确性:调用距离依赖于仿真控制流相对可预测;高度随机或对抗性的代理调度可能会降低性能。
  • 距离更新的开销:维护优先队列会带来适度的 CPU 开销,在超高频仿真中可能变得显著。
  • 对多 GPU / 分布式环境的支持:当前原型面向单个 GPU;将该策略扩展到多设备或集群仍需后续探索。
  • 动态模型更新:系统假设每个代理的模型是静态的;实时微调或适配器切换需要额外的记录工作。

作者建议研究基于学习的调用距离预测器,结合分布式张量并行,并探索与 LLM 推理内核更紧密的耦合,以进一步降低延迟。

作者

  • Zaifeng Pan
  • Yipeng Shen
  • Zhengding Hu
  • Zhuang Wang
  • Aninda Manocha
  • Zheng Wang
  • Zhongkai Yu
  • Yue Guan
  • Yufei Ding

论文信息

  • arXiv ID: 2601.21473v1
  • 分类: cs.AI, cs.DC
  • 发表时间: 2026年1月29日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »