[Paper] 协作多智能体测试时强化学习用于推理

发布: 3周前 (2026年1月15日 GMT+8 01:57)

7 分钟阅读

原文: arXiv

Source: arXiv - 2601.09667v1

Overview

本文提出了 Multi‑Agent Test‑Time Reinforcement Learning (MATTRL)，这是一种新颖的框架，使一组大型语言模型（LLM）代理能够在推理阶段通过提取先前测试时交互的相关“经验”来提升其推理能力。通过将推理阶段转变为轻量级的协作式审议过程，MATTRL 避免了传统多代理强化学习（MARL）中常见的高成本和不稳定的训练循环。

关键贡献

Test‑time experience injection: 引入一种机制，使代理能够检索并重用先前对话回合中的文本片段，有效地将推理转化为一种即时学习形式。
Multi‑expert deliberation: 构建一个结构化的专家代理团队，进行讨论、交叉检查，并在生成最终答案前达成共识。
Turn‑level credit assignment: 提出一种信用分配方案，评估每个检索经验的有用性，并将该信号反馈到 deliberation 循环中。
Robust performance gains: 在医学、数学、教育等多样化领域展示出一致的准确率提升（≈ 3.7 % 超过多代理基线，≈ 8.7 % 超过强单代理基线）。
Stability without extra training: 表明该方法在无需额外微调或昂贵的 MARL 训练循环的情况下，实现了对分布漂移的鲁棒推理。

方法论

组建代理团队 – 汇集一组基于大语言模型的专家，每个专家针对特定子任务进行微调（或提示），例如事实核查、计算、领域知识等。
经验池构建 – 在推理过程中，记录多轮对话的每一次交互，并结合从回合级信用分配得到的轻量奖励信号（例如某一回合对最终正确答案的贡献程度）。
测试时检索 – 面对新查询时，系统使用语义相似度搜索从经验池中检索最相关的历史回合。
审议循环 – 代理们摄取检索到的片段，在结构化的多轮聊天中讨论问题，并迭代细化推理过程。
共识决策 – 在固定次数的审议轮后，通过投票或加权平均机制生成最终答案。

整个流程仅在推理阶段运行，无需额外的梯度更新或策略梯度训练。

结果与发现

基准测试： 在三个具有挑战性的套件上进行测试——医学问答、基础数学题以及教育概念解释。
准确率提升： MATTRL 相较于缺乏测试时经验的强大多智能体基线提升了 3.67 % 的平均准确率，相较于最佳单智能体 LLM 基线提升了 8.67 %。
消融分析：
- 移除信用分配步骤会导致性能下降约 2 %，验证了其在挖掘高价值经验中的作用。
- 使用朴素的随机检索代替基于相似度的检索会将收益降低至约 1 %，凸显了相关性匹配的重要性。
稳定性： 在多个随机种子下，性能方差明显低于传统 MARL 训练，表明推理行为更可预测。

实际影响

即插即用的推理提升: 开发者可以在现有 LLM API 上包装 MATTRL 的推理层，立即提升准确性，无需重新训练模型。
领域特定助理: 在受监管的领域（如医疗），能够引用并复用先前经过审查的推理步骤，有助于合规性和审计。
成本效益的扩展: 由于主要工作在推理阶段完成，组织可以避免通常需要的大规模计算预算，使该方法对 SaaS 产品和边缘部署具有吸引力。
对分布转移的鲁棒性: 通过利用动态经验池，系统能够在无需显式模型更新的情况下适应新的问题风格或新出现的知识。

限制与未来工作

经验池规模： 该方法依赖于足够丰富的过去对话库；如果缺乏相关经验，稀疏或全新领域的查询可能会受到影响。
延迟开销： 多轮推理与检索会增加额外的推理延迟，这在实时应用中可能成为问题。
信用分配启发式： 当前的回合级奖励信号是手工设计的；学习更细致的信用分配机制有望进一步提升性能。
向大量代理的可扩展性： 在大量专门代理之间管理协作可能变得复杂；未来工作可以探索层次化或动态的团队组建方式。

MATTRL 为将推理转化为协作式、经验驱动的过程打开了有前景的途径，为开发者提供了一种实用工具，以在不承担传统多代理强化学习高成本的情况下提升大语言模型的推理能力。

作者

Zhiyuan Hu
Yunhai Hu
Juncheng Liu
Shuyue Stella Li
Yucheng Wang
Zhen Xu
See‑Kiong Ng
Anh Tuan Luu
Xinxing Xu
Bryan Hooi
Cynthia Breazeal
Hae Won Park

论文信息

arXiv ID: 2601.09667v1
分类: cs.AI, cs.CL
出版日期: 2026年1月14日
PDF: 下载 PDF

[Paper] 协作多智能体测试时强化学习用于推理

Overview

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] 解释在大型推理模型中是否具有泛化性？

[论文] 为 Gemini 构建生产就绪探针

[Paper] 中毒苹果效应：通过AI Agents技术扩张实现对中介市场的战略操纵

[Paper] MHA2MLA-VLM：在视觉-语言模型中实现 DeepSeek 的经济型多头潜在注意力