[Paper] ScaleSim：为大规模多智能体仿真提供基于调用距离的内存管理

发布: 1周前 (2026年1月29日 GMT+8 17:52)

7 分钟阅读

原文: arXiv

Source: arXiv - 2601.21473v1

概览

本文介绍了 ScaleSim，这是一种系统，使在单个仿真中运行成千上万个基于 LLM 的代理成为可能，而不会耗尽 GPU 内存。作者观察到代理仅在偶尔活跃，并且可以预测它们未来的激活顺序，因而提出了一种新的“调用距离”抽象，用于更智能的内存预取和驱逐，在真实的仿真工作负载上实现了显著的加速。

关键贡献

Invocation Distance 抽象 – 一种轻量级度量，用于估算每个代理的下一个 LLM 请求的距离，从而实现主动的内存管理。
主动预取 & 基于优先级的驱逐 – 对于调用距离较短的代理保持常驻，而对未来调用距离较远的代理进行换出，以降低 GPU 内存压力。
模块化内存接口 – 支持异构的每代理状态（模型权重、前缀缓存、适配器等），无需硬编码任何特定表示。
ScaleSim 运行时 – 一个即插即用的服务层，可与现有 LLM 后端（如 SGLang）集成，在多代理基准测试中实现最高 1.74× 的加速。
全面的工作负载分析 – 对真实仿真工作负载进行特征化，以验证代理激活的稀疏性和调用顺序的可预测性。

方法论

工作负载特征化 – 作者对多个代表性的多代理仿真（例如游戏 AI、经济建模）进行画像，发现两种重复出现的模式：
- 稀疏激活：在任意给定步骤中，只有少数代理实际发出 LLM 调用。
- 可预测顺序：可以从仿真的控制流中估计出代理被调用的顺序。
定义调用距离 – 对于每个代理，系统跟踪其下一个预期 LLM 请求之前的步数（或时间）。该距离在仿真进行时持续更新。
内存管理策略 –
- 预取：当代理的距离低于可配置阈值时，其私有状态（模型分片、缓存、适配器）会主动加载到 GPU 上。
- 驱逐：距离最大的代理优先被驱逐，为即将到来的代理腾出空间。
- 该策略实现为以调用距离为键的优先队列，支持 O(log N) 更新。
模块化状态接口 – 开发者可以通过实现一个小型 API，插入自定义的每代理数据结构（例如 LoRA 适配器、提示前缀）；ScaleSim 负责在主机和设备内存之间移动这些数据块。
集成与评估 – ScaleSim 基于 SGLang 服务栈构建。基准测试比较了原始 SGLang、SGLang + 朴素交换以及 ScaleSim 在不同代理数量和模型规模下的表现。

结果与发现

指标	基准 (SGLang)	SGLang + 简单交换	ScaleSim
吞吐量 (agents · steps/s)	1.0×	1.12×	1.74×
GPU 峰值内存使用	100 % (max)	78 % (due to aggressive swapping)	55 %
每次 LLM 调用的延迟 (ms)	120	135 (swap overhead)	95
扩展至 #agents	500	800	>1500

加速：ScaleSim 的预取‑驱逐策略将平均每次调用的延迟降低约 20 %，在仿真运行超过 1 k agents 时整体吞吐量提升超过两倍。
内存节省：通过仅保留“近期” agents 在显存中，GPU 内存消耗大约降低了一半，使得可以使用更大的基础模型（例如 13 B 参数）。
鲁棒性：系统能够平稳处理激活模式的动态变化；调用距离度量能够即时自适应，无需完整的重新分析。

实际影响

游戏与虚拟世界 AI：工作室现在可以在不需要大量 GPU 的情况下，用 LLM 驱动的 NPC 填充庞大的开放世界环境。
经济与社会模拟：研究人员可以将代理数量扩展到数万，从而实现更丰富的情景测试（例如，市场动态、疫情建模）。
边缘与云混合部署：模块化内存接口允许开发者将不常用的代理状态卸载到主机 RAM 或远程存储，仅将活跃代理保留在昂贵的 GPU 实例上。
成本降低：更低的 GPU 内存占用直接转化为更便宜的云 GPU 租用费用，或在单台工作站上容纳更多代理的能力。
开发者生产力：ScaleSim 作为现有 LLM 服务栈上的轻量层运行，这意味着团队可以在不重写模拟逻辑的情况下采用它。

限制与未来工作

预测准确性：调用距离依赖于仿真控制流相对可预测；高度随机或对抗性的代理调度可能会降低性能。
距离更新的开销：维护优先队列会带来适度的 CPU 开销，在超高频仿真中可能变得显著。
对多 GPU / 分布式环境的支持：当前原型面向单个 GPU；将该策略扩展到多设备或集群仍需后续探索。
动态模型更新：系统假设每个代理的模型是静态的；实时微调或适配器切换需要额外的记录工作。

作者建议研究基于学习的调用距离预测器，结合分布式张量并行，并探索与 LLM 推理内核更紧密的耦合，以进一步降低延迟。

作者

Zaifeng Pan
Yipeng Shen
Zhengding Hu
Zhuang Wang
Aninda Manocha
Zheng Wang
Zhongkai Yu
Yue Guan
Yufei Ding

论文信息

arXiv ID: 2601.21473v1
分类: cs.AI, cs.DC
发表时间: 2026年1月29日
PDF: 下载 PDF

[Paper] ScaleSim：为大规模多智能体仿真提供基于调用距离的内存管理

概览

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] VideoGPA：蒸馏几何先验以实现3D一致的视频生成

[论文] 共享自治范式中信念与策略学习的端到端优化

[Paper] 解耦扩散采样用于函数空间的逆问题

[Paper] FOCUS：DLLMs 知道如何驯服它们的计算瓶颈