[论文] BAMAS：结构化预算感知多智能体系统

发布: 2个月前 (2025年11月27日 GMT+8 00:48)

6 分钟阅读

原文: arXiv

Source: arXiv - 2511.21572v1

概览

大型语言模型（LLM）驱动的多代理系统已能够处理复杂的多步骤问题，但其运行成本往往会迅速变得不可承受。本文 “BAMAS: Structuring Budget‑Aware Multi‑Agent Systems” 提出了一种系统化的方法，在预设预算范围内设计此类系统，实现性能与费用之间的平衡。

关键贡献

预算驱动的代理选择： 将 LLM 的选取表述为整数线性规划（ILP）问题，联合优化任务性能和货币成本。
拓扑感知的协作： 使用强化学习（RL）发现交互图（谁与谁对话），在给定预算下最大化效率。
端到端流水线： 提供实用工作流——选择 → 结构化 → 实例化——可应用于任何基于 LLM 的多代理应用。
实证验证： 在三个基准任务上实现最高 86 % 的成本降低，同时保持与最先进（SOTA）基线相当的准确率。

方法论

定义预算和候选 LLM 池 – 为每个候选模型（如 GPT‑3.5、Claude‑1、LLaMA‑2）标注每 token 价格以及针对目标任务的预估性能分数。
基于 ILP 的选择 – 系统求解整数线性规划，挑选出总成本 ≤ 预算的模型子集，同时最大化它们性能分数的加权和。
基于 RL 的拓扑搜索 – 在选定的代理固定后，强化学习代理在有向图中提出边（例如 “代理 A 将其输出发送给代理 B”）。奖励函数结合任务成功度（如准确率、完成率）和额外通信的边际成本。
实例化与执行 – 将最终图具体化：每个节点运行其分配的 LLM，按照学习得到的拓扑交换消息，产出整体解答。

该方法刻意保持模块化：可以替换 ILP 求解器、改用其他 RL 算法，或接入不同的成本模型，而无需重新设计整个流水线。

结果与发现

任务（基准）	基线（SOTA）成本	BAMAS 成本	成本降低	性能变化
复杂推理（链式思考）	$1.20 per query	$0.17 per query	86 %	±0.2 %
多轮规划	$0.95 per query	$0.28 per query	71 %	+0.1 %
知识密集型问答	$0.78 per query	$0.32 per query	59 %	–0.3 %

关键要点

在不牺牲准确率的前提下降低成本 – 三个任务的性能差距均在统计噪声范围内。
混合代理组合优于单模型基线 – 例如，将廉价快速模型用于前期处理、将高端模型用于最终验证，可获得最佳折中。
学习得到的拓扑往往稀疏，证实许多交互是多余的，可通过剪枝进一步节省 API 调用。

实际意义

产品团队可设定硬预算（如每位用户请求 $0.05），让 BAMAS 自动配置最便宜且可行的代理组合，省去手动试错的工作。
无服务器部署变得可行：通过最小化 token 使用，开发者可以在低成本云函数甚至边缘设备上运行 LLM 助手。
动态扩展 – 当定价变化（如新模型发布）时，可重新运行 BAMAS 即时重新优化代理池，确保持续的成本效益。
成本可解释性 – ILP 公式提供了模型选择的清晰审计轨迹，便于合规与预算报告。

局限性与未来工作

静态预算假设： 当前流水线针对单一、固定预算进行优化；处理波动预算（如突发流量）需要进一步扩展。
性能估计依赖： ILP 需要每个候选 LLM 的准确先验性能分数，对新任务可能噪声较大。
RL 拓扑搜索的可扩展性： 对约 10 个代理有效，搜索空间随代理数呈组合增长；未来可探索基于图神经网络的拓扑预测器。
更广泛的评估： 目前仅测试三项任务，将 BAMAS 应用于自主机器人或实时游戏等领域可进一步验证其通用性。

作者

Liming Yang
Junyu Luo
Xuanzhe Liu
Yiling Lou
Zhenpeng Chen

论文信息

arXiv ID: 2511.21572v1
分类: cs.MA, cs.AI
发表时间: 2025 年 11 月 26 日
PDF: Download PDF

[论文] BAMAS：结构化预算感知多智能体系统

概览

关键贡献

方法论

结果与发现

实际意义

局限性与未来工作

作者

论文信息

相关文章

[Paper] 逃离验证器：通过示例学习推理

[Paper] 使用迭代 PPO 对齐 LLM 以实现多轮对话结果

[Paper] EnergyTwin：用于模拟与协调能源微电网的多智能体系统

AI 代理在区块链智能合约中发现 460 万美元的漏洞