[Paper] 多模态大语言模型的不确定性量化与不一致性校正语义体积
发布: (2026年2月28日 GMT+8 01:18)
8 分钟阅读
原文: arXiv
看起来您只提供了来源链接,而没有提供需要翻译的正文内容。请提供您希望翻译成简体中文的文本,我会按照要求保留来源链接并保持原有的格式。
概述
多模态大型语言模型(MLLM)可以回答涉及文本、图像、音频或视频的问题,但它们有时会生成看似自信却错误的答案。论文 “Uncertainty Quantification for Multimodal Large Language Models with Incoherence‑adjusted Semantic Volume” 提出了 UMPIRE,一种轻量级、无需训练的方法,使开发者能够在任何模态下评估对 MLLM 响应的可信度。
关键贡献
- UMPIRE 框架:一个统一的不确定性估计器,适用于文本、图像、音频和视频输出,无需额外工具或微调。
- 不一致性调整的语义体积:一种新颖的度量,结合 (i) 多个采样响应的语义扩散 和 (ii) 模型内部的置信度(不一致性),生成单一的不确定性分数。
- 形式化的期望属性与理论:作者定义了多模态模型的良好不确定性度量应满足的条件,并为其设计提供了理论依据。
- 广泛的实证验证:在多样化基准(图像问答、音频字幕、视频文本检索以及生成任务)上的实验表明,UMPIRE 在错误检测和校准方面优于现有基线,即使在对抗性或分布外条件下亦如此。
- 零训练、低开销:UMPIRE 在推理时仅使用模型的内部表征运行,因而适用于生产流水线。
方法论
- 对多个输出进行采样 – 对于给定输入(例如图像),让 MLLM 生成 k 个候选响应(文本、图像、音频等)。
- 提取内部模态特征 – 直接从前向传播中获取对应每种模态的模型隐藏状态(无需外部编码器)。
- 计算语义体积 – 将采样的响应嵌入共享语义空间;凸包的体积(或如成对余弦距离等代理)反映答案在全局上的多样性。
- 对不一致性进行校正 – 使用每个样本的内部置信分数(例如 token 序列的对数概率或模态特定的 logits)对体积加权,惩罚低置信度答案的聚类。
- 聚合为单一不确定性得分 – 当响应既多样又单个置信度低时,最终的 UMPIRE 分数会很高,表明模型对任务不确定。
由于所有步骤都依赖模型自身的前向传播,UMPIRE 只会带来适度的计算开销(通常只需额外进行几次采样的前向传播)。
结果与发现
| 基准 | 模态 | 基线(例如,熵,MC‑Dropout) | UMPIRE | 相对增益 |
|---|---|---|---|---|
| VQA‑2(图像‑文本) | 文本答案 | 71.2 % AUC | 78.9 % | +7.7 % |
| AudioCaps(音频‑字幕) | 文本答案 | 0.62 ECE | 0.44 | ↓22 % |
| MSRVTT‑QA(视频‑文本) | 文本答案 | 68.5 % AUC | 75.3 % | +6.8 % |
| 文本‑到‑图像生成(StableDiffusion) | 图像输出 | 0.71 % 失败检测 | 0.85 % | +14 % |
| 对抗性 OOD(扰动图像) | 全部 | 0.58 % 校准误差 | 0.39 | ↓33 % |
- 错误检测:UMPIRE 始终将真正错误的输出排在基线不确定性度量之上,使其在分流时可靠。
- 校准:预测的不确定性与实际错误率更吻合,这对下游决策至关重要。
- 跨模态泛化:相同的流水线可用于生成任务(例如图像合成),无需任何重新设计。
实际意义
- 人机交互系统:部署 UMPIRE 将高不确定性查询标记为人工审查,以减少客服机器人、医学影像分析或内容审核中的代价高昂的错误。
- 模型级联编排:使用该分数决定何时将请求转发给更大、更昂贵的模型(例如 GPT‑4V),仅在较小的 MLLM 不确定时进行,从而节省计算和延迟。
- 安全与合规:在受监管领域(金融、医疗),不确定性估计可记录用于审计追踪,满足 AI 可解释性的合规要求。
- 主动学习:UMPIRE 能识别最模糊的样本进行标注,加速多模态模型的微调数据收集。
- 生成管道:对于图像/音频生成,当模型置信度低时,该指标可触发重新采样或后处理,在无需人工干预的情况下提升整体质量。
限制与未来工作
- 采样开销:虽然免训练,UMPIRE仍需要多次前向传播;对极度延迟敏感的应用可能需要进一步优化。
- 依赖内部置信度:当模型的logits校准不佳时,连贯性调整可能不够可靠。
- 语义空间对齐:该方法假设跨模态共享嵌入空间;不匹配可能影响对异类模态(例如3‑D点云)的体积估计。
- 作者提出的未来方向 包括:
- 自适应采样策略以降低计算量。
- 更紧密的理论界限,将语义体积与贝叶斯后验不确定性关联。
- 将UMPIRE扩展至处理流式或交互式多模态对话。
底线:UMPIRE提供了一种实用、模态无关的方式来量化当今强大多模态大语言模型的不确定性,为开发者提供了一个具体工具,使AI系统更安全、更具成本效益,并更好地符合现实世界的期望。
作者
- Gregory Kang Ruey Lau
- Hieu Dao
- Nicole Kan Hui Lin
- Bryan Kian Hsiang Low
论文信息
- arXiv ID: 2602.24195v1
- 分类: cs.AI, cs.CL, cs.CV, cs.LG
- 出版日期: February 27, 2026
- PDF: 下载 PDF