[论文] BAMAS:结构化预算感知多智能体系统

发布: (2025年11月27日 GMT+8 00:48)
6 min read
原文: arXiv

Source: arXiv - 2511.21572v1

概览

大型语言模型(LLM)驱动的多代理系统已能够处理复杂的多步骤问题,但其运行成本往往会迅速变得不可承受。本文 “BAMAS: Structuring Budget‑Aware Multi‑Agent Systems” 提出了一种系统化的方法,在预设预算范围内设计此类系统,实现性能与费用之间的平衡。

关键贡献

  • 预算驱动的代理选择: 将 LLM 的选取表述为整数线性规划(ILP)问题,联合优化任务性能和货币成本。
  • 拓扑感知的协作: 使用强化学习(RL)发现交互图(谁与谁对话),在给定预算下最大化效率。
  • 端到端流水线: 提供实用工作流——选择 → 结构化 → 实例化——可应用于任何基于 LLM 的多代理应用。
  • 实证验证: 在三个基准任务上实现最高 86 % 的成本降低,同时保持与最先进(SOTA)基线相当的准确率。

方法论

  1. 定义预算和候选 LLM 池 – 为每个候选模型(如 GPT‑3.5、Claude‑1、LLaMA‑2)标注每 token 价格以及针对目标任务的预估性能分数。
  2. 基于 ILP 的选择 – 系统求解整数线性规划,挑选出总成本 ≤ 预算的模型子集,同时最大化它们性能分数的加权和。
  3. 基于 RL 的拓扑搜索 – 在选定的代理固定后,强化学习代理在有向图中提出边(例如 “代理 A 将其输出发送给代理 B”)。奖励函数结合任务成功度(如准确率、完成率)和额外通信的边际成本。
  4. 实例化与执行 – 将最终图具体化:每个节点运行其分配的 LLM,按照学习得到的拓扑交换消息,产出整体解答。

该方法刻意保持模块化:可以替换 ILP 求解器、改用其他 RL 算法,或接入不同的成本模型,而无需重新设计整个流水线。

结果与发现

任务(基准)基线(SOTA)成本BAMAS 成本成本降低性能变化
复杂推理(链式思考)$1.20 per query$0.17 per query86 %±0.2 %
多轮规划$0.95 per query$0.28 per query71 %+0.1 %
知识密集型问答$0.78 per query$0.32 per query59 %–0.3 %

关键要点

  • 在不牺牲准确率的前提下降低成本 – 三个任务的性能差距均在统计噪声范围内。
  • 混合代理组合优于单模型基线 – 例如,将廉价快速模型用于前期处理、将高端模型用于最终验证,可获得最佳折中。
  • 学习得到的拓扑往往稀疏,证实许多交互是多余的,可通过剪枝进一步节省 API 调用。

实际意义

  • 产品团队可设定硬预算(如每位用户请求 $0.05),让 BAMAS 自动配置最便宜且可行的代理组合,省去手动试错的工作。
  • 无服务器部署变得可行:通过最小化 token 使用,开发者可以在低成本云函数甚至边缘设备上运行 LLM 助手。
  • 动态扩展 – 当定价变化(如新模型发布)时,可重新运行 BAMAS 即时重新优化代理池,确保持续的成本效益。
  • 成本可解释性 – ILP 公式提供了模型选择的清晰审计轨迹,便于合规与预算报告。

局限性与未来工作

  • 静态预算假设: 当前流水线针对单一、固定预算进行优化;处理波动预算(如突发流量)需要进一步扩展。
  • 性能估计依赖: ILP 需要每个候选 LLM 的准确先验性能分数,对新任务可能噪声较大。
  • RL 拓扑搜索的可扩展性: 对约 10 个代理有效,搜索空间随代理数呈组合增长;未来可探索基于图神经网络的拓扑预测器。
  • 更广泛的评估: 目前仅测试三项任务,将 BAMAS 应用于自主机器人或实时游戏等领域可进一步验证其通用性。

作者

  • Liming Yang
  • Junyu Luo
  • Xuanzhe Liu
  • Yiling Lou
  • Zhenpeng Chen

论文信息

  • arXiv ID: 2511.21572v1
  • 分类: cs.MA, cs.AI
  • 发表时间: 2025 年 11 月 26 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »