[Paper] 管理基于 LLM 的多智能体系统运行中的不确定性

发布: (2026年2月26日 GMT+8 21:49)
8 分钟阅读
原文: arXiv

Source: arXiv - 2602.23005v1

概述

本文针对一个紧迫的问题展开研究:当基于大语言模型(LLM)的智能体被组合成用于安全关键任务的多智能体系统(例如,自动心脏超声分析)时,不确定性不再局限于单个模型,而是会在整个软件栈中传播。作者认为,将不确定性视为一等的软件工程关注点——而不仅仅是模型精度问题——可以显著提升真实部署环境中的可靠性和可诊断性。

关键贡献

  • 基于大语言模型的多代理系统的不确定性分类 – 在系统层面区分认知(知识缺口)不确定性和本体(世界状态)不确定性。
  • 基于生命周期的不确定性管理框架 – 引入四个协同机制(表示、识别、演化、适应),在架构层次和运行时阶段之间协同工作。
  • 运行时治理模型 – 提供一种结构化方式,在执行期间(而不仅是训练期间)监控、推理并适应新出现的不确定性。
  • 在临床超声心动图平台上的实证验证 – 证明在应用该框架后,诊断可靠性和故障可诊断性均获得可衡量的提升。
  • 通用化蓝图 – 讨论该方法如何迁移到其他安全关键领域(自动驾驶、医学决策支持、工业控制)。

方法论

  1. 问题范围与分类 – 作者首先绘制了在典型的基于 LLM 的多代理流水线中不确定性产生的地点(数据摄取、代理间消息传递、人机交互反馈、控制逻辑)。随后他们将每个来源分类为认知不确定性(例如缺失领域知识)或本体不确定性(例如不可预测的患者生理)。
  2. 框架设计 – 基于分类法,他们定义了跨设计时、部署时和运行时的生命周期。四个机制是:
    • 表示: 捕获每个组件不确定性属性的形式模型(例如概率图、置信注释)。
    • 识别: 仪表化和监控钩子,展示不确定性信号(置信分数、偏差度量、延迟峰值)。
    • 演化: 描述不确定性在数据在代理之间流动时如何传播或转化的规则(例如贝叶斯更新、不确定性放大检测)。
    • 适应: 触发缓解行动的决策策略——重新提示 LLM、回退到基于规则的逻辑,或升级至人工专家。
  3. 临床环境中的实现 – 该框架被集成到心脏科医生使用的现有超声心动图分析系统中。团队在每个 LLM 代理周围添加了轻量级包装器,以输出不确定性元数据,并构建了一个中心“不确定性编排器”,实时应用适应策略。
  4. 评估 – 他们比较了三种变体:(a) 基线系统(无显式不确定性处理),(b) 以模型为中心的置信过滤,和 (c) 完整的生命周期框架。指标包括诊断准确率、误报/漏报率以及检测推理错误的平均时间。

结果与发现

指标基线模型中心过滤完整生命周期框架
诊断准确率 (AUC)0.840.860.91
假阴性率12.3 %10.1 %6.4 %
检测故障的平均时间(秒)8.75.22.1
开发者报告的调试开销+15 %(对安全收益而言可接受)

关键要点

  • 在各代理之间显式跟踪不确定性可实现 约 5 分点的 AUC 提升,优于单纯的置信度过滤。
  • 系统能够在 2 秒以内 自动介入(例如请求人工审查),显著缩短不安全决策的窗口。
  • 额外仪器化带来的开销有限,使该方法在实时临床工作流中具有可行性。

Practical Implications

  • 针对开发者: 该框架提供了一个具体的方案——metadata wrappers + a central orchestrator——可以在不重写核心 LLM 逻辑的情况下嵌入不确定性感知。
  • 针对 DevOps / SRE 团队: Runtime dashboards 可以显示 uncertainty spikes,从而在 cascade of errors 发生之前触发主动警报和 automated rollbacks。
  • 针对产品经理: 可量化的可靠性提升可以转化为 regulatory compliance 论证(例如 FDA’s Software as a Medical Device guidance)。
  • 跨领域可移植性: 同一生命周期可应用于 autonomous vehicle fleets,其中 perception agents (LLM‑enhanced scene understanding) 必须在 uncertain sensor inputs 下与 planning modules 协同工作。
  • 人机交互优化: 通过向 clinicians 或 operators 展示 uncertainty scores,系统可以仅在需要时请求有针对性的人类验证,从而保持工作流效率。

限制与未来工作

  • 评估范围: 实证研究仅限于单一临床应用;需要在更广泛的领域基准上进行测试,以确认其通用性。
  • 不确定性量化的准确性: 该框架依赖于大型语言模型产生的置信分数,而这些分数可能存在校准偏差;未来工作应探索校准技术或外部不确定性估计器。
  • 编排的可扩展性: 随着代理数量的增加,中心编排器可能成为瓶颈;分布式或层级化编排模型是一个有前景的方向。
  • 用户体验研究: 尚未衡量基于不确定性的人工提示对临床医生工作负荷的影响;系统化的用户体验研究对于安全部署至关重要。

结论: 通过将不确定性从模型单独关注提升为系统级的工程学科,本工作为开发者构建更安全、更可信的 LLM 驱动多代理应用提供了实用路径。

作者

  • Man Zhang
  • Tao Yue
  • Yihua He

论文信息

  • arXiv ID: 2602.23005v1
  • 分类: cs.SE
  • 发布日期: 2026年2月26日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »