[Paper] 管理基于 LLM 的多智能体系统运行中的不确定性

发布: 3天前 (2026年2月26日 GMT+8 21:49)

8 分钟阅读

原文: arXiv

Source: arXiv - 2602.23005v1

概述

本文针对一个紧迫的问题展开研究：当基于大语言模型（LLM）的智能体被组合成用于安全关键任务的多智能体系统（例如，自动心脏超声分析）时，不确定性不再局限于单个模型，而是会在整个软件栈中传播。作者认为，将不确定性视为一等的软件工程关注点——而不仅仅是模型精度问题——可以显著提升真实部署环境中的可靠性和可诊断性。

关键贡献

基于大语言模型的多代理系统的不确定性分类 – 在系统层面区分认知（知识缺口）不确定性和本体（世界状态）不确定性。
基于生命周期的不确定性管理框架 – 引入四个协同机制（表示、识别、演化、适应），在架构层次和运行时阶段之间协同工作。
运行时治理模型 – 提供一种结构化方式，在执行期间（而不仅是训练期间）监控、推理并适应新出现的不确定性。
在临床超声心动图平台上的实证验证 – 证明在应用该框架后，诊断可靠性和故障可诊断性均获得可衡量的提升。
通用化蓝图 – 讨论该方法如何迁移到其他安全关键领域（自动驾驶、医学决策支持、工业控制）。

方法论

问题范围与分类 – 作者首先绘制了在典型的基于 LLM 的多代理流水线中不确定性产生的地点（数据摄取、代理间消息传递、人机交互反馈、控制逻辑）。随后他们将每个来源分类为认知不确定性（例如缺失领域知识）或本体不确定性（例如不可预测的患者生理）。
框架设计 – 基于分类法，他们定义了跨设计时、部署时和运行时的生命周期。四个机制是：
- 表示： 捕获每个组件不确定性属性的形式模型（例如概率图、置信注释）。
- 识别： 仪表化和监控钩子，展示不确定性信号（置信分数、偏差度量、延迟峰值）。
- 演化： 描述不确定性在数据在代理之间流动时如何传播或转化的规则（例如贝叶斯更新、不确定性放大检测）。
- 适应： 触发缓解行动的决策策略——重新提示 LLM、回退到基于规则的逻辑，或升级至人工专家。
临床环境中的实现 – 该框架被集成到心脏科医生使用的现有超声心动图分析系统中。团队在每个 LLM 代理周围添加了轻量级包装器，以输出不确定性元数据，并构建了一个中心“不确定性编排器”，实时应用适应策略。
评估 – 他们比较了三种变体：(a) 基线系统（无显式不确定性处理），(b) 以模型为中心的置信过滤，和 (c) 完整的生命周期框架。指标包括诊断准确率、误报/漏报率以及检测推理错误的平均时间。

结果与发现

指标	基线	模型中心过滤	完整生命周期框架
诊断准确率 (AUC)	0.84	0.86	0.91
假阴性率	12.3 %	10.1 %	6.4 %
检测故障的平均时间（秒）	8.7	5.2	2.1
开发者报告的调试开销	–	–	+15 %（对安全收益而言可接受）

关键要点

在各代理之间显式跟踪不确定性可实现 约 5 分点的 AUC 提升，优于单纯的置信度过滤。
系统能够在 2 秒以内 自动介入（例如请求人工审查），显著缩短不安全决策的窗口。
额外仪器化带来的开销有限，使该方法在实时临床工作流中具有可行性。

Practical Implications

针对开发者： 该框架提供了一个具体的方案——metadata wrappers + a central orchestrator——可以在不重写核心 LLM 逻辑的情况下嵌入不确定性感知。
针对 DevOps / SRE 团队： Runtime dashboards 可以显示 uncertainty spikes，从而在 cascade of errors 发生之前触发主动警报和 automated rollbacks。
针对产品经理： 可量化的可靠性提升可以转化为 regulatory compliance 论证（例如 FDA’s Software as a Medical Device guidance）。
跨领域可移植性： 同一生命周期可应用于 autonomous vehicle fleets，其中 perception agents (LLM‑enhanced scene understanding) 必须在 uncertain sensor inputs 下与 planning modules 协同工作。
人机交互优化： 通过向 clinicians 或 operators 展示 uncertainty scores，系统可以仅在需要时请求有针对性的人类验证，从而保持工作流效率。

限制与未来工作

评估范围： 实证研究仅限于单一临床应用；需要在更广泛的领域基准上进行测试，以确认其通用性。
不确定性量化的准确性： 该框架依赖于大型语言模型产生的置信分数，而这些分数可能存在校准偏差；未来工作应探索校准技术或外部不确定性估计器。
编排的可扩展性： 随着代理数量的增加，中心编排器可能成为瓶颈；分布式或层级化编排模型是一个有前景的方向。
用户体验研究： 尚未衡量基于不确定性的人工提示对临床医生工作负荷的影响；系统化的用户体验研究对于安全部署至关重要。

结论： 通过将不确定性从模型单独关注提升为系统级的工程学科，本工作为开发者构建更安全、更可信的 LLM 驱动多代理应用提供了实用路径。

作者

Man Zhang
Tao Yue
Yihua He

论文信息

arXiv ID: 2602.23005v1
分类: cs.SE
发布日期: 2026年2月26日
PDF: 下载 PDF

[Paper] 管理基于 LLM 的多智能体系统运行中的不确定性

概述

关键贡献

方法论

结果与发现

Practical Implications

限制与未来工作

作者

论文信息

相关文章

[Paper] 基于LLM的深度学习库静默漏洞模糊测试：通过多样化且受控的漏洞转移

[Paper] 混合敏捷团队的生产力与协作：访谈研究

[Paper] RandSet：用于 Fuzzing 种子调度的随机语料库缩减

[Paper] 视觉语言动作启用机器人变形测试