[论文] BAMAS:结构化预算感知多智能体系统
发布: (2025年11月27日 GMT+8 00:48)
6 min read
原文: arXiv
Source: arXiv - 2511.21572v1
概览
大型语言模型(LLM)驱动的多代理系统已能够处理复杂的多步骤问题,但其运行成本往往会迅速变得不可承受。本文 “BAMAS: Structuring Budget‑Aware Multi‑Agent Systems” 提出了一种系统化的方法,在预设预算范围内设计此类系统,实现性能与费用之间的平衡。
关键贡献
- 预算驱动的代理选择: 将 LLM 的选取表述为整数线性规划(ILP)问题,联合优化任务性能和货币成本。
- 拓扑感知的协作: 使用强化学习(RL)发现交互图(谁与谁对话),在给定预算下最大化效率。
- 端到端流水线: 提供实用工作流——选择 → 结构化 → 实例化——可应用于任何基于 LLM 的多代理应用。
- 实证验证: 在三个基准任务上实现最高 86 % 的成本降低,同时保持与最先进(SOTA)基线相当的准确率。
方法论
- 定义预算和候选 LLM 池 – 为每个候选模型(如 GPT‑3.5、Claude‑1、LLaMA‑2)标注每 token 价格以及针对目标任务的预估性能分数。
- 基于 ILP 的选择 – 系统求解整数线性规划,挑选出总成本 ≤ 预算的模型子集,同时最大化它们性能分数的加权和。
- 基于 RL 的拓扑搜索 – 在选定的代理固定后,强化学习代理在有向图中提出边(例如 “代理 A 将其输出发送给代理 B”)。奖励函数结合任务成功度(如准确率、完成率)和额外通信的边际成本。
- 实例化与执行 – 将最终图具体化:每个节点运行其分配的 LLM,按照学习得到的拓扑交换消息,产出整体解答。
该方法刻意保持模块化:可以替换 ILP 求解器、改用其他 RL 算法,或接入不同的成本模型,而无需重新设计整个流水线。
结果与发现
| 任务(基准) | 基线(SOTA)成本 | BAMAS 成本 | 成本降低 | 性能变化 |
|---|---|---|---|---|
| 复杂推理(链式思考) | $1.20 per query | $0.17 per query | 86 % | ±0.2 % |
| 多轮规划 | $0.95 per query | $0.28 per query | 71 % | +0.1 % |
| 知识密集型问答 | $0.78 per query | $0.32 per query | 59 % | –0.3 % |
关键要点
- 在不牺牲准确率的前提下降低成本 – 三个任务的性能差距均在统计噪声范围内。
- 混合代理组合优于单模型基线 – 例如,将廉价快速模型用于前期处理、将高端模型用于最终验证,可获得最佳折中。
- 学习得到的拓扑往往稀疏,证实许多交互是多余的,可通过剪枝进一步节省 API 调用。
实际意义
- 产品团队可设定硬预算(如每位用户请求 $0.05),让 BAMAS 自动配置最便宜且可行的代理组合,省去手动试错的工作。
- 无服务器部署变得可行:通过最小化 token 使用,开发者可以在低成本云函数甚至边缘设备上运行 LLM 助手。
- 动态扩展 – 当定价变化(如新模型发布)时,可重新运行 BAMAS 即时重新优化代理池,确保持续的成本效益。
- 成本可解释性 – ILP 公式提供了模型选择的清晰审计轨迹,便于合规与预算报告。
局限性与未来工作
- 静态预算假设: 当前流水线针对单一、固定预算进行优化;处理波动预算(如突发流量)需要进一步扩展。
- 性能估计依赖: ILP 需要每个候选 LLM 的准确先验性能分数,对新任务可能噪声较大。
- RL 拓扑搜索的可扩展性: 对约 10 个代理有效,搜索空间随代理数呈组合增长;未来可探索基于图神经网络的拓扑预测器。
- 更广泛的评估: 目前仅测试三项任务,将 BAMAS 应用于自主机器人或实时游戏等领域可进一步验证其通用性。
作者
- Liming Yang
- Junyu Luo
- Xuanzhe Liu
- Yiling Lou
- Zhenpeng Chen
论文信息
- arXiv ID: 2511.21572v1
- 分类: cs.MA, cs.AI
- 发表时间: 2025 年 11 月 26 日
- PDF: Download PDF