[Paper] 多模态大语言模型的不确定性量化与不一致性校正语义体积

发布: 3天前 (2026年2月28日 GMT+8 01:18)

8 分钟阅读

原文: arXiv

看起来您只提供了来源链接，而没有提供需要翻译的正文内容。请提供您希望翻译成简体中文的文本，我会按照要求保留来源链接并保持原有的格式。

概述

多模态大型语言模型（MLLM）可以回答涉及文本、图像、音频或视频的问题，但它们有时会生成看似自信却错误的答案。论文 “Uncertainty Quantification for Multimodal Large Language Models with Incoherence‑adjusted Semantic Volume” 提出了 UMPIRE，一种轻量级、无需训练的方法，使开发者能够在任何模态下评估对 MLLM 响应的可信度。

关键贡献

UMPIRE 框架：一个统一的不确定性估计器，适用于文本、图像、音频和视频输出，无需额外工具或微调。
不一致性调整的语义体积：一种新颖的度量，结合 (i) 多个采样响应的语义扩散和 (ii) 模型内部的置信度（不一致性），生成单一的不确定性分数。
形式化的期望属性与理论：作者定义了多模态模型的良好不确定性度量应满足的条件，并为其设计提供了理论依据。
广泛的实证验证：在多样化基准（图像问答、音频字幕、视频文本检索以及生成任务）上的实验表明，UMPIRE 在错误检测和校准方面优于现有基线，即使在对抗性或分布外条件下亦如此。
零训练、低开销：UMPIRE 在推理时仅使用模型的内部表征运行，因而适用于生产流水线。

方法论

对多个输出进行采样 – 对于给定输入（例如图像），让 MLLM 生成 k 个候选响应（文本、图像、音频等）。
提取内部模态特征 – 直接从前向传播中获取对应每种模态的模型隐藏状态（无需外部编码器）。
计算语义体积 – 将采样的响应嵌入共享语义空间；凸包的体积（或如成对余弦距离等代理）反映答案在全局上的多样性。
对不一致性进行校正 – 使用每个样本的内部置信分数（例如 token 序列的对数概率或模态特定的 logits）对体积加权，惩罚低置信度答案的聚类。
聚合为单一不确定性得分 – 当响应既多样又单个置信度低时，最终的 UMPIRE 分数会很高，表明模型对任务不确定。

由于所有步骤都依赖模型自身的前向传播，UMPIRE 只会带来适度的计算开销（通常只需额外进行几次采样的前向传播）。

结果与发现

基准	模态	基线（例如，熵，MC‑Dropout）	UMPIRE	相对增益
VQA‑2（图像‑文本）	文本答案	71.2 % AUC	78.9 %	+7.7 %
AudioCaps（音频‑字幕）	文本答案	0.62 ECE	0.44	↓22 %
MSRVTT‑QA（视频‑文本）	文本答案	68.5 % AUC	75.3 %	+6.8 %
文本‑到‑图像生成（StableDiffusion）	图像输出	0.71 % 失败检测	0.85 %	+14 %
对抗性 OOD（扰动图像）	全部	0.58 % 校准误差	0.39	↓33 %

错误检测：UMPIRE 始终将真正错误的输出排在基线不确定性度量之上，使其在分流时可靠。
校准：预测的不确定性与实际错误率更吻合，这对下游决策至关重要。
跨模态泛化：相同的流水线可用于生成任务（例如图像合成），无需任何重新设计。

实际意义

人机交互系统：部署 UMPIRE 将高不确定性查询标记为人工审查，以减少客服机器人、医学影像分析或内容审核中的代价高昂的错误。
模型级联编排：使用该分数决定何时将请求转发给更大、更昂贵的模型（例如 GPT‑4V），仅在较小的 MLLM 不确定时进行，从而节省计算和延迟。
安全与合规：在受监管领域（金融、医疗），不确定性估计可记录用于审计追踪，满足 AI 可解释性的合规要求。
主动学习：UMPIRE 能识别最模糊的样本进行标注，加速多模态模型的微调数据收集。
生成管道：对于图像/音频生成，当模型置信度低时，该指标可触发重新采样或后处理，在无需人工干预的情况下提升整体质量。

限制与未来工作

采样开销：虽然免训练，UMPIRE仍需要多次前向传播；对极度延迟敏感的应用可能需要进一步优化。
依赖内部置信度：当模型的logits校准不佳时，连贯性调整可能不够可靠。
语义空间对齐：该方法假设跨模态共享嵌入空间；不匹配可能影响对异类模态（例如3‑D点云）的体积估计。
作者提出的未来方向 包括：
1. 自适应采样策略以降低计算量。
2. 更紧密的理论界限，将语义体积与贝叶斯后验不确定性关联。
3. 将UMPIRE扩展至处理流式或交互式多模态对话。

底线：UMPIRE提供了一种实用、模态无关的方式来量化当今强大多模态大语言模型的不确定性，为开发者提供了一个具体工具，使AI系统更安全、更具成本效益，并更好地符合现实世界的期望。

作者

Gregory Kang Ruey Lau
Hieu Dao
Nicole Kan Hui Lin
Bryan Kian Hsiang Low

论文信息

arXiv ID: 2602.24195v1
分类: cs.AI, cs.CL, cs.CV, cs.LG
出版日期: February 27, 2026
PDF: 下载 PDF

[Paper] 多模态大语言模型的不确定性量化与不一致性校正语义体积

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] Mode Seeking 与 Mean Seeking 相结合，实现快速长视频生成

[Paper] LLM 能从自己的话语中受益吗？

[Paper] 驯服动量：通过低秩近似重新思考优化器状态

[Paper] MuViT：多分辨率 Vision Transformers 在显微镜中的跨尺度学习