[Paper] 用过程奖励扩展多智能体系统

发布: (2026年1月31日 GMT+8 01:55)
8 分钟阅读
原文: arXiv

I’m ready to translate the requested text, but it looks like only the source line was provided. Could you please share the rest of the content you’d like translated? Once I have the full text, I’ll keep the source line unchanged and translate the rest into Simplified Chinese while preserving all formatting and technical terms.

Overview

本文介绍了 MAPPA(Multi‑Agent Process‑Reward‑Based Fine‑Tuning,多代理过程奖励式微调),这是一种在长期问题上训练协同工作的 AI 代理集合的新方法。通过对每个单独的动作进行奖励,而不仅仅是最终结果,MAPPA 解决了经典的信用分配瓶颈,并显著减少了获得良好性能所需的昂贵多代理 rollout 次数。

关键贡献

  • 每步过程奖励(Per‑action process rewards): 一个框架,从智能体执行的每一步中提取学习信号,使用 AI 生成的反馈而非人工编写的标签。
  • 统一的归因分配(Unified credit assignment): 将奖励从最终任务层级转移到每个智能体决策的细粒度层面,使多智能体微调更加样本高效。
  • 跨领域验证(Cross‑domain validation): 在两个截然不同的任务——竞赛级数学题求解和工具增强的数据分析——上展示 MAPPA,证明该方法的通用性。
  • 显著的性能提升(Significant performance gains): 在 AIME/AMC 数学基准上实现 5–17 个百分点的提升,在数据分析流水线上提升最高达 30 % 的质量。
  • 最小化人工监督(Minimal human supervision): 依赖 AI 反馈模型生成过程奖励,降低了昂贵的人为标注需求。

方法论

  1. 多代理设置: 系统由多个专门的代理组成(例如,“问题求解”代理、“工具选择”代理、“数据可视化”代理)。它们交换信息并按顺序行动以完成任务。
  2. 过程奖励生成: 在每个代理执行动作后,一个辅助的大语言模型(在人工评分反馈上训练)在上下文中评估该动作并产生一个标量奖励。该奖励反映了该动作在推动实现最终目标方面的帮助程度。
  3. 强化学习式微调: 使用包含每个动作奖励的策略梯度损失来更新代理,类似于标准强化学习,但无需手工设计奖励函数。
  4. 样本效率技巧:
    • 奖励塑形 使用相同的 AI 反馈模型提供中间信号,使单次 rollout 能产生多次训练更新。
    • 课程 rollout 过滤 早期剔除低质量轨迹,将计算资源集中在有前景的交互上。
  5. 训练循环: 流程在生成 rollout(代理在一批问题上交互)和使用收集到的过程奖励更新每个代理的策略之间交替进行。

结果与发现

领域基线MAPPA改进幅度
AIME 数学(未见题目)42 %57–59 %+5.0–17.5 pp
AMC 数学(未见题目)48 %65–66 %+7.8–17.2 pp
工具增强数据分析(成功率)68 %80.5 %+12.5 pp
数据分析质量(如正确性、可读性)最高提升 +30 %

关键要点

  • 细粒度监督很重要: 即使没有明确的真实标签,AI 生成的过程奖励也提供了足够的信号,使代理的表现远超基线。
  • 跨任务可推广: 同一套 MAPPA 流程既适用于符号推理(数学),也适用于程序化工具使用(数据分析),表明它可以用于许多长时程、多代理的问题。
  • 降低 rollout 成本: 由于每次 rollout 能产生多个奖励信号,达到目标性能所需的 rollout 总次数比仅使用终端任务监督降低约 40 %。

实际影响

  • 面向开发者的流水线: 团队可以将现有的基于 LLM 的反馈模型接入其多代理编排代码,并以最小的工程工作量开始收集每个动作的奖励。
  • 降低标注预算: 以前依赖人工评估每次端到端运行的公司可以用自动化反馈模型取代大部分成本,从而释放资源用于更高层次的系统设计。
  • 可扩展的 AI 助手: 对于将多个专门化代理串联起来的产品(例如代码生成 + 测试 + 文档),MAPPA 提供了一种在不为每个新任务重新设计奖励函数的情况下持续改进整个工作流的方法。
  • 快速原型化: 由于 MAPPA 在每次 rollout 中提取了更多的学习信号,开发者可以更快地迭代新的代理角色或工具集成,加速复杂 AI 服务的上市时间。

限制与未来工作

  • 对反馈模型质量的依赖: 如果 AI 评估器存在偏见或校准不佳,过程奖励可能会误导代理。对反馈模型进行稳健验证至关重要。
  • 计算开销: 在每个动作后生成奖励会增加延迟,这在实时系统中可能成为问题。建议采用批量奖励推理等优化方式。
  • 任务多样性受限: 实验主要聚焦于数学问题求解和数据分析;将 MAPPA 扩展到机器人、对话或多模态感知等领域仍是一个未解之题。
  • 未来方向: 探索层次化奖励生成器、为边缘案例引入人类在环校正、以及扩展至数百个协同代理。

底线: MAPPA 表明,细粒度的 AI 生成监督能够为多代理系统释放显著的性能提升,同时大幅削减对昂贵人工反馈的需求。对于构建复杂 AI 流水线的开发者而言,它提供了一套实用方案,使其代理团队学习得更快、更可靠。

作者

  • Ed Li
  • Junyu Ren
  • Cat Yan

论文信息

  • arXiv ID: 2601.23228v1
  • 分类: cs.AI, cs.CL, cs.ET, cs.MA
  • 出版日期: 2026年1月30日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »