[Paper] 学习去中心化 LLM 协作的多智能体 Actor Critic

发布: (2026年1月30日 GMT+8 00:50)
7 分钟阅读
原文: arXiv

Source: arXiv - 2601.21972v1

概述

本文介绍了 CoLLM,这是一套用于训练大型语言模型(LLMs)在没有中心控制器的情况下协作的多智能体演员‑评论家(MAAC)技术。通过从 Monte‑Carlo 微调转向演员‑评论家学习,作者展示了去中心化的 LLM 团队如何在样本利用率更高的情况下进行训练,尤其是在复杂的、长时程任务上。

关键贡献

  • 两种新颖的 MAAC 框架用于 LLM 协作:
    • CoLLM‑CC – 一个集中式评论员,评估所有代理的联合行动。
    • CoLLM‑DC – 去中心化的评论员,每个为其自身代理估计价值。
  • 理论分析何时集中式与去中心化评论员提供优势(例如奖励稀疏性、时间跨度)。
  • 全面的实证研究跨三个领域——创意写作、代码生成和多代理游戏——突出 Monte‑Carlo、CoLLM‑CC 和 CoLLM‑DC 之间的权衡。
  • 开源实现(v1.3.2),可与流行的 LLM 工具包集成,实现可复现性和快速实验。

方法论

  1. 问题设定 – 将一组 LLM 代理建模为分散式部分可观测马尔可夫决策过程(Dec‑POMDP)。每个代理接收自己的提示/上下文并产生文本输出(动作)。
  2. Actor‑Critic 设计
    • Actor:对每个 LLM 进行微调,添加一个策略头,将其隐藏状态映射到 token 概率。
    • Critic
      • CoLLM‑CC:单个基于 transformer 的评论者接收所有代理的拼接观测和动作,输出联合状态价值估计。
      • CoLLM‑DC:每个代理拥有自己的轻量级评论者,仅看到其本地观测/动作,近似本地价值函数。
  3. 训练循环
    • 并行运行推理回合(无需中心调度器)。
    • 收集轨迹,使用广义优势估计(GAE)计算 优势估计 以降低方差。
    • 使用 PPO‑style 剪切代理损失更新 actor;使用对引导回报的均方误差损失更新 critic。
  4. 基线 – 标准的 Monte‑Carlo 策略梯度微调(无 critic)以及完全中心化的执行协议(由主节点协调代理)。

结果与发现

领域时间范围 / 奖励密度Monte‑CarloCoLLM‑DCCoLLM‑CC
写作(短篇小说)短期,密集可比可比最佳
代码合成(单函数)中等,密集略差可比最佳
回合制策略游戏长期,稀疏需要约 3 倍更多的样本难以可靠收敛明显胜出
  • 样本效率:在密集奖励任务上,两种 MAAC 变体将所需的微调步骤数量降低了 30‑50 %。
  • 稳定性:集中式评论员(CoLLM‑CC)始终产生更低方差的梯度,使稀疏奖励问题的训练曲线更平滑。
  • 可扩展性:CoLLM‑DC 随代理数量的增加扩展性更好(通信开销保持本地),但当全局奖励信号弱或延迟时,其性能会下降。

实际意义

  • 并行部署:使用 CoLLM‑DC 离线训练的 LLM 驱动微服务团队(例如 “研究助理 + 代码审查员 + 文档编写者” 流程),可以在推理时完全独立运行——无需协调服务器。
  • 降低云成本:演员‑评论家(actor‑critic)微调在更少的昂贵 LLM 接口调用下收敛,为尝试多代理工作流的企业降低计算费用。
  • 更好的长期规划:对于自动化游戏测试、多步骤故障排除或多轮对话代理等应用,CoLLM‑CC 提供了一条实用路径,使 LLM 能在无需手工奖励塑形的情况下预测未来结果。
  • 即插即用:发布的代码将评论家逻辑封装为轻量级 PyTorch 模块,可附加到任何 Hugging Face Transformer,使开发者能够轻松在自己的技术栈中原型化去中心化协作。

限制与未来工作

  • 集中式评论者瓶颈:CoLLM‑CC 在训练时仍需全局视角来观察所有代理,当团队规模非常大(>10 个代理)时,可能会成为内存瓶颈。
  • 稀疏奖励敏感性:虽然 CoLLM‑CC 在稀疏奖励环境中优于其他方法,但仍需精心设计奖励 shaping 或 curriculum learning,以避免陷入死胡同。
  • 评估范围:实验主要聚焦于文本为中心的任务;将其扩展到多模态代理(例如视觉‑语言)仍是一个未解之题。
  • 未来方向:作者提出的方向包括:融合集中式与局部信息的层次化评论者、跨领域自适应评论者的元学习,以及探索离策略 actor‑critic 变体以进一步降低样本需求。

作者

  • Shuo Liu
  • Tianle Chen
  • Ryan Amiri
  • Christopher Amato

论文信息

  • arXiv ID: 2601.21972v1
  • 分类: cs.AI, cs.DC, cs.MA
  • 出版时间: 2026年1月29日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »