[Paper] 在推理 LLM 代理之间达成一致

发布: 1个月前 (2025年12月23日 GMT+8 17:20)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.20184v1

概述

论文《Reaching Agreement Among Reasoning LLM Agents》解决了当今 AI 驱动的多代理系统中日益突出的痛点：如何协调大量大型语言模型（LLM）“代理”，使它们能够高效地共同推理，而不浪费计算资源或产生不一致的答案。作者将该问题框定为分布式共识任务——类似于保持数据库和区块链同步的算法——并提出了一种可证明正确的协议，显著降低延迟，同时保持答案质量。

关键贡献

Formal model of multi‑agent refinement – 定义了对随机推理代理的正确性保证（安全性、活性）。
Aegean consensus protocol – 一种轻量级、基于法定人数的算法，允许代理在足够多的代理达成一致后提前停止，避免“慢节点”延迟。
Aegean‑Serve serving engine – 实现了在并发 LLM 执行中检测增量法定人数并触发提前终止。
Empirical validation – 在四个数学推理基准上的实验显示，延迟降低 1.2–20 倍，答案质量下降 ≤2.5%，适用于本地 GPU 和商业 API 后端。
Provable safety & liveness – 系统保证最终答案要么是正确的共识，要么协议会继续运行直至达成。

方法论

问题形式化 – 作者将每个推理 LLM 建模为一个随机节点，该节点在可变的计算量后生成候选答案。目标是达成一个细化——即满足预定义正确性谓词的共享答案。
共识设计 – 基于经典的分布式共识（如 Paxos、Raft），Aegean 引入了 概率法定人数：不再等待所有代理，而是跟踪有多少代理产生了相同答案，一旦达到可配置的置信阈值即停止。
增量法定人数检测 – Aegean‑Serve 实时监控部分结果的流。当法定人数条件满足时，它会中止剩余较慢的代理，返回已达成一致的答案。
安全检查 – 在最终确定之前，系统会使用轻量级验证器（例如更小的 LLM 或基于规则的检查器）重新评估共识答案，以确保其满足正确性谓词。
评估 – 该协议在四个数学推理任务（如 GSM8K、MATH）上进行基准测试，使用自建 GPU 集群和外部 API（OpenAI、Anthropic）。测量延迟、计算成本和答案准确率，并与基线编排策略（固定循环、屏障同步）进行比较。

结果与发现

设置	基准延迟 (秒)	Aegean 延迟 (秒)	加速比	答案质量 Δ
Local GPU (8 agents)	4.8	0.4 – 4.0	1.2× – 20×	≤ 2.5%
OpenAI API (4 agents)	6.2	0.5 – 5.1	1.2× – 12×	≤ 2.5%
Anthropic API (6 agents)	7.5	0.6 – 6.3	1.2× – 13×	≤ 2.5%

延迟大幅下降，因为协议不再等待最慢的“拖延者”代理。
计算成本 成比例降低，因为中止的代理释放了 GPU/API 配额。
答案质量 基本保持不变；小的验证步骤能够捕获早期终止可能导致错误答案的少数情况。
该协议在不同硬件和 API 提供商之间始终如一，展示了其 平台无关 的特性。

实际影响

更快的 AI 增强工作流 – 构建聊天机器人、代码助手或决策支持工具的团队现在可以在不遭受典型“全部等待”惩罚的情况下编排多个 LLM 调用。
成本节约 – 通过终止不必要的代理运行，基于云的 API 使用量下降，这在高吞吐量服务中每千次查询可节省数十美元。
可扩展的集成推理 – 开发者可以安全地增加推理代理的数量（例如，多样化的提示、温度设置），以提升鲁棒性，因为系统会自动裁剪多余的计算。
可靠性保证 – 正式的安全性/活性证明让产品负责人确信系统不会返回不一致或部分验证的答案，这在受监管领域（金融、医疗）是关键需求。
即插即用的服务层 – Aegean‑Serve 可以包装在现有的 LLM 推理管道（如 LangChain、LlamaIndex）之上，代码改动极少，采用过程十分直接。

限制与未来工作

Verification overhead – 轻量级正确性检查会带来一个小的固定成本；在超低延迟场景（sub‑100 ms）下，这可能变得显著。
Assumption of independent stochastic agents – 该模型假设各代理独立运行；对于紧耦合的代理（例如共享内存），可能需要采用不同的 consensus strategy。
Domain‑specific predicates – 当前实验聚焦于 mathematical reasoning；将协议扩展到 open‑ended generation（创意写作、code synthesis）将需要更丰富、可能是 learned 的 correctness predicates。
Dynamic quorum tuning – 未来工作可以探索 adaptive quorum thresholds，根据观察到的 agent variance 动态调整，以进一步优化 speed 与 answer fidelity 之间的 trade‑off。

Bottom line: 通过借鉴分布式系统的严谨性并将其应用于 LLM ensembles，作者提供了一个实用、可证明正确的编排层，显著降低延迟和成本，同时保持答案可靠——这对任何希望扩展推理密集型 AI 服务的开发者而言都是一次胜利。

作者

Chaoyi Ruan
Yiliang Wang
Ziji Shi
Jialin Li

论文信息

arXiv ID: 2512.20184v1
类别: cs.DC
出版时间: 2025年12月23日
PDF: 下载 PDF

[Paper] 在推理 LLM 代理之间达成一致

概述

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[论文] 可适应云架构首届研讨会论文集

[Paper] FUSCO：通过变换-通信融合实现高性能分布式数据洗牌

在异构网络和不可靠连接下的鲁棒联邦微调：聚合视角

[Paper] BLEST：极其高效的 BFS 使用 Tensor Cores