[Paper] 学习去中心化 LLM 协作的多智能体 Actor Critic

发布: 3个月前 (2026年1月30日 GMT+8 00:50)

7 分钟阅读

原文: arXiv

Source: arXiv - 2601.21972v1

概述

本文介绍了 CoLLM，这是一套用于训练大型语言模型（LLMs）在没有中心控制器的情况下协作的多智能体演员‑评论家（MAAC）技术。通过从 Monte‑Carlo 微调转向演员‑评论家学习，作者展示了去中心化的 LLM 团队如何在样本利用率更高的情况下进行训练，尤其是在复杂的、长时程任务上。

关键贡献

两种新颖的 MAAC 框架用于 LLM 协作：
- CoLLM‑CC – 一个集中式评论员，评估所有代理的联合行动。
- CoLLM‑DC – 去中心化的评论员，每个为其自身代理估计价值。
理论分析何时集中式与去中心化评论员提供优势（例如奖励稀疏性、时间跨度）。
全面的实证研究跨三个领域——创意写作、代码生成和多代理游戏——突出 Monte‑Carlo、CoLLM‑CC 和 CoLLM‑DC 之间的权衡。
开源实现（v1.3.2），可与流行的 LLM 工具包集成，实现可复现性和快速实验。

方法论

问题设定 – 将一组 LLM 代理建模为分散式部分可观测马尔可夫决策过程（Dec‑POMDP）。每个代理接收自己的提示/上下文并产生文本输出（动作）。
Actor‑Critic 设计
- Actor：对每个 LLM 进行微调，添加一个策略头，将其隐藏状态映射到 token 概率。
- Critic：
  - CoLLM‑CC：单个基于 transformer 的评论者接收所有代理的拼接观测和动作，输出联合状态价值估计。
  - CoLLM‑DC：每个代理拥有自己的轻量级评论者，仅看到其本地观测/动作，近似本地价值函数。
训练循环 –
- 并行运行推理回合（无需中心调度器）。
- 收集轨迹，使用广义优势估计（GAE）计算 优势估计 以降低方差。
- 使用 PPO‑style 剪切代理损失更新 actor；使用对引导回报的均方误差损失更新 critic。
基线 – 标准的 Monte‑Carlo 策略梯度微调（无 critic）以及完全中心化的执行协议（由主节点协调代理）。

结果与发现

领域	时间范围 / 奖励密度	Monte‑Carlo	CoLLM‑DC	CoLLM‑CC
写作（短篇小说）	短期，密集	可比	可比	最佳
代码合成（单函数）	中等，密集	略差	可比	最佳
回合制策略游戏	长期，稀疏	需要约 3 倍更多的样本	难以可靠收敛	明显胜出

样本效率：在密集奖励任务上，两种 MAAC 变体将所需的微调步骤数量降低了 30‑50 %。
稳定性：集中式评论员（CoLLM‑CC）始终产生更低方差的梯度，使稀疏奖励问题的训练曲线更平滑。
可扩展性：CoLLM‑DC 随代理数量的增加扩展性更好（通信开销保持本地），但当全局奖励信号弱或延迟时，其性能会下降。

实际意义

并行部署：使用 CoLLM‑DC 离线训练的 LLM 驱动微服务团队（例如 “研究助理 + 代码审查员 + 文档编写者” 流程），可以在推理时完全独立运行——无需协调服务器。
降低云成本：演员‑评论家（actor‑critic）微调在更少的昂贵 LLM 接口调用下收敛，为尝试多代理工作流的企业降低计算费用。
更好的长期规划：对于自动化游戏测试、多步骤故障排除或多轮对话代理等应用，CoLLM‑CC 提供了一条实用路径，使 LLM 能在无需手工奖励塑形的情况下预测未来结果。
即插即用：发布的代码将评论家逻辑封装为轻量级 PyTorch 模块，可附加到任何 Hugging Face Transformer，使开发者能够轻松在自己的技术栈中原型化去中心化协作。

限制与未来工作

集中式评论者瓶颈：CoLLM‑CC 在训练时仍需全局视角来观察所有代理，当团队规模非常大（>10 个代理）时，可能会成为内存瓶颈。
稀疏奖励敏感性：虽然 CoLLM‑CC 在稀疏奖励环境中优于其他方法，但仍需精心设计奖励 shaping 或 curriculum learning，以避免陷入死胡同。
评估范围：实验主要聚焦于文本为中心的任务；将其扩展到多模态代理（例如视觉‑语言）仍是一个未解之题。
未来方向：作者提出的方向包括：融合集中式与局部信息的层次化评论者、跨领域自适应评论者的元学习，以及探索离策略 actor‑critic 变体以进一步降低样本需求。

作者

Shuo Liu
Tianle Chen
Ryan Amiri
Christopher Amato

论文信息

arXiv ID: 2601.21972v1
分类: cs.AI, cs.DC, cs.MA
出版时间: 2026年1月29日
PDF: 下载 PDF

[Paper] 学习去中心化 LLM 协作的多智能体 Actor Critic

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] VideoGPA：蒸馏几何先验以实现3D一致的视频生成

[论文] 共享自治范式中信念与策略学习的端到端优化

[Paper] 解耦扩散采样用于函数空间的逆问题

[Paper] FOCUS：DLLMs 知道如何驯服它们的计算瓶颈