[Paper] 学习用于并行多代理系统的延迟感知编排
发布: (2026年1月16日 GMT+8 00:23)
7 min read
原文: arXiv
Source: arXiv - 2601.10560v1
概览
本文介绍了 LAMaS(Latency‑Aware Multi‑agent System,延迟感知多代理系统),一个框架,教会控制器在 并行 协调多个 AI 代理的同时,显式最小化关键执行路径的端到端延迟。通过将延迟视为一等监督信号,作者展示了可以将最长运行链的时间缩短最高 46 %,且不会牺牲——有时甚至还能提升——整体任务性能。
关键贡献
- 延迟感知编排: 将多代理协同问题表述为延迟监督学习任务,目标是关键路径而非仅总计算成本。
- 并行执行图构建: 使控制器能够生成执行拓扑图,以并发调度代理,利用硬件并行性。
- LAMaS 框架: 一个具体实现,将延迟监督集成到多代理系统的神经架构搜索(NAS)循环中。
- 实证收益: 在多个基准 MAS 任务上展示了关键路径长度降低 38‑46 %,且准确率与之前的最先进(SOTA)MAS‑NAS 方法相当或更好。
- 开源发布: 提供完整代码库(https://github.com/xishi404/LAMaS),便于复现和社区扩展。
方法论
- 问题表述 – 作者将多智能体系统视为有向无环图(DAG),其中节点是单个智能体(例如语言模型、规划器),边表示数据依赖关系。关键路径 是从输入到输出的最长时延链。
- 时延监督 – 在训练期间,框架测量每个候选 DAG 在目标硬件上的实际时钟时延。该时延信号会反馈给预测更佳拓扑结构的控制器网络。
- 控制器架构 – 一个强化学习(RL)控制器对图结构(智能体选择 + 连接方式)进行采样,并获得复合奖励:任务性能(例如准确率、奖励)与测得时延的加权和。
- 并行执行引擎 – 采样得到的图在并行运行时被调度,独立的智能体并发执行,遵循数据依赖关系。此过程产生用于监督的实际时延。
- 搜索循环 – 控制器使用策略梯度更新迭代优化其策略,逐步倾向于在保持高任务得分的同时实现低时延的图结构。
整体流水线类似于现有的神经架构搜索(NAS)方法,但将通常的 FLOPs 或参数量代理替换为 真实时延,并显式建模并行性,而不是假设顺序执行顺序。
Results & Findings
| Benchmark | Baseline (SOTA MAS‑NAS) | LAMaS | Critical‑Path Reduction | Task Performance |
|---|---|---|---|---|
| Multi‑turn Dialogue | 1.23 s | 0.71 s | 42 % | +1.2 % Exact Match |
| Collaborative Navigation | 2.05 s | 1.12 s | 45 % | ±0 % Success Rate |
| Multi‑agent Reasoning (HotpotQA) | 1.78 s | 0.96 s | 46 % | +0.4 % F1 |
- Latency gains are consistent across diverse tasks, confirming that the controller learns to place latency‑heavy agents later in the graph or to split them into parallel branches.
- Task metrics are either unchanged or slightly improved, indicating that latency optimization does not force a trade‑off with reasoning quality.
- Ablation studies show that removing latency supervision or forcing sequential execution erodes the gains, underscoring the importance of both components.
实际意义
- 更快的面向用户的 AI 服务: 聊天机器人、虚拟助理或协作机器人可以显著更快地响应,这对实时用户体验至关重要。
- 成本效益的扩展: 通过缩短关键路径,您可以在相同硬件上实现更高吞吐量,从而降低大规模部署的云计算费用。
- 边缘和移动部署: 延迟感知的编排使得在资源受限的设备上运行多代理流水线成为可能,这些设备虽然拥有并行核心,但整体计算预算有限。
- 开发者工具: 开源的 LAMaS 包可以集成到现有的 MAS 流水线中(例如 LangChain、AutoGPT),自动搜索低延迟编排,无需手动调优。
- 硬件感知的 AI 设计: 鼓励从“模型中心”优化(准确率、参数)转向“系统中心”设计,将执行图视为一等构件。
局限性与未来工作
- 硬件依赖性: 延迟测量与搜索期间使用的特定硬件绑定;将学习到的编排迁移到不同平台可能需要重新评估。
- 搜索成本: 基于 RL 的搜索循环会产生不容忽视的计算开销,尤其是对于非常大的代理库。
- 静态图: LAMaS 当前为每个任务生成固定的编排;运行时的动态适配(例如基于当前负载)尚未探索。
- 更广泛的基准: 实验聚焦于少数标准 MAS 任务;将该方法应用于超大规模语言模型集合或异构传感器‑执行器系统仍是开放问题。
未来的研究方向包括 硬件无关的延迟代理、执行图的在线适配,以及将框架扩展到 异构集群(CPU + GPU + TPU),其中并行模式有所不同。
作者
- Xi Shi
- Mengxin Zheng
- Qian Lou
论文信息
- arXiv ID: 2601.10560v1
- 类别: cs.MA, cs.AI, cs.CL
- 发表时间: 2026年1月15日
- PDF: 下载 PDF