[Paper] 在推理 LLM 代理之间达成一致

发布: (2025年12月23日 GMT+8 17:20)
7 min read
原文: arXiv

Source: arXiv - 2512.20184v1

概述

论文《Reaching Agreement Among Reasoning LLM Agents》解决了当今 AI 驱动的多代理系统中日益突出的痛点:如何协调大量大型语言模型(LLM)“代理”,使它们能够高效地共同推理,而不浪费计算资源或产生不一致的答案。作者将该问题框定为分布式共识任务——类似于保持数据库和区块链同步的算法——并提出了一种可证明正确的协议,显著降低延迟,同时保持答案质量。

关键贡献

  • Formal model of multi‑agent refinement – 定义了对随机推理代理的正确性保证(安全性、活性)。
  • Aegean consensus protocol – 一种轻量级、基于法定人数的算法,允许代理在足够多的代理达成一致后提前停止,避免“慢节点”延迟。
  • Aegean‑Serve serving engine – 实现了在并发 LLM 执行中检测增量法定人数并触发提前终止。
  • Empirical validation – 在四个数学推理基准上的实验显示,延迟降低 1.2–20 倍,答案质量下降 ≤2.5%,适用于本地 GPU 和商业 API 后端。
  • Provable safety & liveness – 系统保证最终答案要么是正确的共识,要么协议会继续运行直至达成。

方法论

  1. 问题形式化 – 作者将每个推理 LLM 建模为一个 随机 节点,该节点在可变的计算量后生成候选答案。目标是达成一个 细化——即满足预定义正确性谓词的共享答案。
  2. 共识设计 – 基于经典的分布式共识(如 Paxos、Raft),Aegean 引入了 概率法定人数:不再等待所有代理,而是跟踪有多少代理产生了相同答案,一旦达到可配置的置信阈值即停止。
  3. 增量法定人数检测 – Aegean‑Serve 实时监控部分结果的流。当法定人数条件满足时,它会中止剩余较慢的代理,返回已达成一致的答案。
  4. 安全检查 – 在最终确定之前,系统会使用轻量级验证器(例如更小的 LLM 或基于规则的检查器)重新评估共识答案,以确保其满足正确性谓词。
  5. 评估 – 该协议在四个数学推理任务(如 GSM8K、MATH)上进行基准测试,使用自建 GPU 集群和外部 API(OpenAI、Anthropic)。测量延迟、计算成本和答案准确率,并与基线编排策略(固定循环、屏障同步)进行比较。

结果与发现

设置基准延迟 (秒)Aegean 延迟 (秒)加速比答案质量 Δ
Local GPU (8 agents)4.80.4 – 4.01.2× – 20×≤ 2.5%
OpenAI API (4 agents)6.20.5 – 5.11.2× – 12×≤ 2.5%
Anthropic API (6 agents)7.50.6 – 6.31.2× – 13×≤ 2.5%
  • 延迟 大幅下降,因为协议不再等待最慢的“拖延者”代理。
  • 计算成本 成比例降低,因为中止的代理释放了 GPU/API 配额。
  • 答案质量 基本保持不变;小的验证步骤能够捕获早期终止可能导致错误答案的少数情况。
  • 该协议在不同硬件和 API 提供商之间始终如一,展示了其 平台无关 的特性。

实际影响

  • 更快的 AI 增强工作流 – 构建聊天机器人、代码助手或决策支持工具的团队现在可以在不遭受典型“全部等待”惩罚的情况下编排多个 LLM 调用。
  • 成本节约 – 通过终止不必要的代理运行,基于云的 API 使用量下降,这在高吞吐量服务中每千次查询可节省数十美元。
  • 可扩展的集成推理 – 开发者可以安全地增加推理代理的数量(例如,多样化的提示、温度设置),以提升鲁棒性,因为系统会自动裁剪多余的计算。
  • 可靠性保证 – 正式的安全性/活性证明让产品负责人确信系统不会返回不一致或部分验证的答案,这在受监管领域(金融、医疗)是关键需求。
  • 即插即用的服务层 – Aegean‑Serve 可以包装在现有的 LLM 推理管道(如 LangChain、LlamaIndex)之上,代码改动极少,采用过程十分直接。

限制与未来工作

  • Verification overhead – 轻量级正确性检查会带来一个小的固定成本;在超低延迟场景(sub‑100 ms)下,这可能变得显著。
  • Assumption of independent stochastic agents – 该模型假设各代理独立运行;对于紧耦合的代理(例如共享内存),可能需要采用不同的 consensus strategy。
  • Domain‑specific predicates – 当前实验聚焦于 mathematical reasoning;将协议扩展到 open‑ended generation(创意写作、code synthesis)将需要更丰富、可能是 learned 的 correctness predicates。
  • Dynamic quorum tuning – 未来工作可以探索 adaptive quorum thresholds,根据观察到的 agent variance 动态调整,以进一步优化 speed 与 answer fidelity 之间的 trade‑off。

Bottom line: 通过借鉴分布式系统的严谨性并将其应用于 LLM ensembles,作者提供了一个实用、可证明正确的编排层,显著降低延迟和成本,同时保持答案可靠——这对任何希望扩展推理密集型 AI 服务的开发者而言都是一次胜利。

作者

  • Chaoyi Ruan
  • Yiliang Wang
  • Ziji Shi
  • Jialin Li

论文信息

  • arXiv ID: 2512.20184v1
  • 类别: cs.DC
  • 出版时间: 2025年12月23日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »