[Paper] 学习去中心化 LLM 协作的多智能体 Actor Critic
发布: (2026年1月30日 GMT+8 00:50)
7 分钟阅读
原文: arXiv
Source: arXiv - 2601.21972v1
概述
本文介绍了 CoLLM,这是一套用于训练大型语言模型(LLMs)在没有中心控制器的情况下协作的多智能体演员‑评论家(MAAC)技术。通过从 Monte‑Carlo 微调转向演员‑评论家学习,作者展示了去中心化的 LLM 团队如何在样本利用率更高的情况下进行训练,尤其是在复杂的、长时程任务上。
关键贡献
- 两种新颖的 MAAC 框架用于 LLM 协作:
- CoLLM‑CC – 一个集中式评论员,评估所有代理的联合行动。
- CoLLM‑DC – 去中心化的评论员,每个为其自身代理估计价值。
- 理论分析何时集中式与去中心化评论员提供优势(例如奖励稀疏性、时间跨度)。
- 全面的实证研究跨三个领域——创意写作、代码生成和多代理游戏——突出 Monte‑Carlo、CoLLM‑CC 和 CoLLM‑DC 之间的权衡。
- 开源实现(v1.3.2),可与流行的 LLM 工具包集成,实现可复现性和快速实验。
方法论
- 问题设定 – 将一组 LLM 代理建模为分散式部分可观测马尔可夫决策过程(Dec‑POMDP)。每个代理接收自己的提示/上下文并产生文本输出(动作)。
- Actor‑Critic 设计
- Actor:对每个 LLM 进行微调,添加一个策略头,将其隐藏状态映射到 token 概率。
- Critic:
- CoLLM‑CC:单个基于 transformer 的评论者接收所有代理的拼接观测和动作,输出联合状态价值估计。
- CoLLM‑DC:每个代理拥有自己的轻量级评论者,仅看到其本地观测/动作,近似本地价值函数。
- 训练循环 –
- 并行运行推理回合(无需中心调度器)。
- 收集轨迹,使用广义优势估计(GAE)计算 优势估计 以降低方差。
- 使用 PPO‑style 剪切代理损失更新 actor;使用对引导回报的均方误差损失更新 critic。
- 基线 – 标准的 Monte‑Carlo 策略梯度微调(无 critic)以及完全中心化的执行协议(由主节点协调代理)。
结果与发现
| 领域 | 时间范围 / 奖励密度 | Monte‑Carlo | CoLLM‑DC | CoLLM‑CC |
|---|---|---|---|---|
| 写作(短篇小说) | 短期,密集 | 可比 | 可比 | 最佳 |
| 代码合成(单函数) | 中等,密集 | 略差 | 可比 | 最佳 |
| 回合制策略游戏 | 长期,稀疏 | 需要约 3 倍更多的样本 | 难以可靠收敛 | 明显胜出 |
- 样本效率:在密集奖励任务上,两种 MAAC 变体将所需的微调步骤数量降低了 30‑50 %。
- 稳定性:集中式评论员(CoLLM‑CC)始终产生更低方差的梯度,使稀疏奖励问题的训练曲线更平滑。
- 可扩展性:CoLLM‑DC 随代理数量的增加扩展性更好(通信开销保持本地),但当全局奖励信号弱或延迟时,其性能会下降。
实际意义
- 并行部署:使用 CoLLM‑DC 离线训练的 LLM 驱动微服务团队(例如 “研究助理 + 代码审查员 + 文档编写者” 流程),可以在推理时完全独立运行——无需协调服务器。
- 降低云成本:演员‑评论家(actor‑critic)微调在更少的昂贵 LLM 接口调用下收敛,为尝试多代理工作流的企业降低计算费用。
- 更好的长期规划:对于自动化游戏测试、多步骤故障排除或多轮对话代理等应用,CoLLM‑CC 提供了一条实用路径,使 LLM 能在无需手工奖励塑形的情况下预测未来结果。
- 即插即用:发布的代码将评论家逻辑封装为轻量级 PyTorch 模块,可附加到任何 Hugging Face Transformer,使开发者能够轻松在自己的技术栈中原型化去中心化协作。
限制与未来工作
- 集中式评论者瓶颈:CoLLM‑CC 在训练时仍需全局视角来观察所有代理,当团队规模非常大(>10 个代理)时,可能会成为内存瓶颈。
- 稀疏奖励敏感性:虽然 CoLLM‑CC 在稀疏奖励环境中优于其他方法,但仍需精心设计奖励 shaping 或 curriculum learning,以避免陷入死胡同。
- 评估范围:实验主要聚焦于文本为中心的任务;将其扩展到多模态代理(例如视觉‑语言)仍是一个未解之题。
- 未来方向:作者提出的方向包括:融合集中式与局部信息的层次化评论者、跨领域自适应评论者的元学习,以及探索离策略 actor‑critic 变体以进一步降低样本需求。
作者
- Shuo Liu
- Tianle Chen
- Ryan Amiri
- Christopher Amato
论文信息
- arXiv ID: 2601.21972v1
- 分类: cs.AI, cs.DC, cs.MA
- 出版时间: 2026年1月29日
- PDF: 下载 PDF