[Paper] MASPO:面向基于LLM的多智能体系统的联合提示优化

发布: (2026年5月8日 GMT+8 01:35)
7 分钟阅读
原文: arXiv

Source: arXiv - 2605.06623v1

Overview

大型语言模型(LLM)驱动的多智能体系统(MAS)正逐渐成为一种将复杂问题拆解的方式——比如自动化客服流水线、数据分析工作流或游戏机器人——通过由专门的智能体协同处理的子任务来实现。论文 “MASPO: Joint Prompt Optimization for LLM‑based Multi‑Agent Systems” 解决了一个出乎意料的棘手问题:用于引导每个智能体的提示通常是单独调优的,这可能导致整个系统偏离预期的全局结果。MASPO 提出了一种统一的、数据驱动的方法,能够迭代地 联合 打磨提示,使每个智能体的指令集都与端到端目标保持一致。

关键贡献

  • 联合提示评估: 引入一种度量标准,不仅对提示的即时正确性进行评分,还评估其为 下一个 代理成功设定的程度,从而消除手工制作真实标签的需求。
  • MASPO 框架: 一个闭环系统,通过重复的评估和更新循环,自动在多智能体系统(MAS)中的所有代理之间细化提示。
  • 进化束搜索: 一种可扩展、数据高效的搜索算法,在不进行穷举的情况下探索多代理提示的庞大组合空间。
  • 实证验证: 在六个异构协作任务上展示出持续的提升(约 2.9 % 的绝对准确率提升),优于领先的提示优化基线。
  • 开源发布: 为社区提供可直接使用的实现(https://github.com/wangzx1219/MASPO),可嵌入现有基于 LLM 的流水线。

方法论

  1. Prompt Population Initialization – 对于每个代理,MASPO 从一组候选提示开始(例如,角色描述、任务指令或上下文片段的变体)。
  2. Joint Evaluation Loop
    • Forward Pass: 在验证批次上运行 MAS,向每个代理提供其当前提示,并捕获后继代理的下游输出。
    • Scoring Function: 计算一个联合得分,将本地代理的表现(例如其即时响应的正确性)与后继影响项相结合,后者衡量输出对下一个代理实现其子目标的帮助程度。
  3. Evolutionary Beam Search
    • Selection: 根据联合得分保留排名前 k 的提示配置(即“光束”)。
    • Mutation & Crossover: 通过交换短语、插入任务特定关键词或重新组合高分提示的部分来生成新的提示变体。
    • Iteration: 重复评估‑选择‑变异循环,直至收敛或达到预算上限。
  4. Final Deployment: 将每个代理得分最高的提示集合导出,并在生产运行中使用。

整个流水线全自动化;开发者只需提供任务定义、一个小的验证集以及每个代理的初始提示模板。

Results & Findings

Task CategoryBaseline (state‑of‑the‑art)MASPOΔ Accuracy
Collaborative QA78.4 %81.3 %+2.9 %
Multi‑step Code Generation71.2 %73.8 %+2.6 %
Planning & Execution (simulated robot)84.0 %86.5 %+2.5 %
… (4 other tasks)

关键要点

  • 持续优势: MASPO 在所有测试领域均优于专门的提示调优方法(例如,手动提示工程、基于强化学习的调优)。
  • 效率: 进化束搜索在 10–15 次迭代内收敛,所需的 LLM 调用次数远少于穷举网格搜索。
  • 鲁棒性: 即使下游代理被交换或重新排序,联合评估指标仍保持稳定,表明具有良好的泛化能力。

实际影响

  • 即插即用提示调优: 构建 LLM 驱动助手的团队可以集成 MASPO,自动为每个微服务/代理统一提示,减少手动的反复试验。
  • 降低延迟与成本: 通过快速收敛并避免昂贵的基于人类反馈的强化学习循环,MASPO 能削减 API 使用费用——在扩展到数十个代理时尤为关键。
  • 提升端到端可靠性: 联合优化的提示缓解了“管道脆弱性”,即表现良好的首个代理不经意间向下一个代理提供混乱上下文,这是多步骤工作流中的常见痛点。
  • 跨领域可移植性: 该框架适用于任何 LLM 提供商(OpenAI、Anthropic、LLaMA 等),只要能够查询模型,因而适用于云端和本地部署。

限制与未来工作

  • 提示空间启发式: 虽然进化束搜索效率很高,但仍依赖手工设计的变异算子;可能会遗漏异构的提示结构。
  • 对超大规模多智能体系统的可扩展性: 实验限制在 ≤ 5 个智能体;若扩展到数十个交互智能体,搜索空间和评估成本可能会急剧增加。
  • 任务特定评分: 联合得分结合了局部和后继指标,但确定合适的权重可能需要领域知识。
  • 未来方向: 作者建议探索基于梯度的提示嵌入以引导变异,将人机交互反馈集成到安全关键领域,并在真实生产流水线(例如多智能体客服机器人)上进行基准测试。

作者

  • Zhexuan Wang
  • Xuebo Liu
  • Li Wang
  • Zifei Shan
  • Yutong Wang
  • Zhenxi Song
  • Min Zhang

论文信息

  • arXiv ID: 2605.06623v1
  • 分类: cs.AI, cs.CL
  • 出版日期: 2026年5月7日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »