[Paper] 信息路由器用于缓解视觉语言模型中的模态主导性

发布: 2天前 (2026年4月18日 GMT+8 01:20)

7 分钟阅读

原文: arXiv

Source: arXiv - 2604.16264v1

概述

视觉‑语言模型（VLM）已成为处理图像与文本融合任务的主力军，从图像描述到视觉问答皆是如此。然而，它们常常出现 模态主导 的现象——模型过度依赖视觉或文本流中的某一方，忽视了另一方提供的有用线索。论文《Information Router for Mitigating Modality Dominance in Vision‑Language Models》提出了 MoIR（多模态信息路由器），这是一种轻量级插件，在两条流融合之前平衡每个模态的信息量，从而实现更均衡的推理，并在某一模态出现噪声或缺失时提升模型的鲁棒性。

关键贡献

信息层级融合： MoIR 检测“弱” token（信息量低的视觉或文本片段），并将更强模态的互补信息路由过去以丰富它们。
模态无关设计： 适用于任何生成 token 级别嵌入的骨干网络（例如 CLIP、ViLT、BLIP）以及任何下游语言模型。
实证验证： 在三个标准多模态基准（VQA、NLVR2 和 COCO‑Caption）上提升性能，覆盖多种模型规模。
鲁棒性提升： 当有意降级某一模态（模糊图像、损坏字幕）时，仍能实现一致的准确率提升。
可解释性： 提供 token 级别的可视化，展示信息如何重新分配，使模态主导性可观察且可控。

方法论

基于 token 的信息评分 – 对于每种模态，MoIR 计算每个 token 的简单“信息密度”分数（例如 token 嵌入的熵或学习得到的置信头）。分数低的 token 被标记为信息不足。
跨模态路由 – 当视觉 token 较弱时，MoIR 使用轻量相似度查找提取最相关的文本 token（反之亦然）。选中的补充 token 随后添加（或拼接）到弱 token 上，生成增强的表示。
路由模块位置 – 增强后的 token 集在送入进行多模态推理的大语言模型（LLM）之前替换原始 token 流。路由器本身仅包含少量线性层，因而几乎不增加延迟。
训练 – MoIR 端到端使用下游任务损失进行训练；路由器学习识别哪些 token 需要帮助以及哪些来源 token 最有用。无需额外的模态支配监督。

整体流程可视化为：

Image → Vision Encoder → Token Embeddings → MoIR ← Text Encoder ← Caption → Token Embeddings → LLM → Output

结果与发现

基准	基线（无 MoIR）	+ MoIR	Δ (↑)
VQA‑2.0（准确率）	71.3%	73.9%	+2.6 pts
NLVR2（准确率）	78.1%	80.5%	+2.4 pts
COCO‑Caption（CIDEr）	124.6	129.8	+5.2 pts

平衡的模态贡献： 归因分析显示，在所有任务中视觉与文本注意力的支配比例下降约 30 %。
降级鲁棒性： 在图像模糊 50 % 的情况下，MoIR 能恢复约 1.8 % 的绝对准确率，而基线下降 4 %；在字幕词汇随机丢弃 30 % 时，MoIR 比基线提升约 2.1 %。
效率： 路由器在单个 V100 GPU 上仅增加 < 5 ms 的推理开销，适用于实时服务。

这些数据表明，显式丰富弱 token 的效果优于仅对注意力头进行重新加权。

实际意义

更可靠的多模态助手： 支持语音的图像搜索或聊天机器人在处理低质量照片（例如手机摄像头拍摄的）时，仍能保持答案质量。
边缘部署： 由于 MoIR 是一个小型插件，开发者可以在边缘设备上对现有 VLM 进行改装，而无需重新训练整个主干网络。
数据效率： 在一种模态（文本）易于获取而另一种模态（传感器图像）噪声较大的场景下，MoIR 能自动进行补偿，降低昂贵的数据清洗需求。
安全性与偏差缓解： 通过防止模型过度依赖单一模态，MoIR 能降低因缺失视觉线索或对模糊文本误解而导致的幻觉风险。
跨模态调试： 令牌级路由图为工程师提供了一种全新的诊断工具，可用于发现模型信息匮乏的部位，并指导数据收集工作。

限制与未来工作

评分简易性： 当前的信息密度度量是启发式的；更复杂的不确定性估计器可能提升路由决策。
仅限于 token 级别的骨干网络： 在特征图层面融合模态的模型（例如早期融合的 CNN‑RNN 混合体）可能需要架构调整才能受益于 MoIR。
可能过度依赖强势模态： 在某一模态完全损坏的极端情况下，路由器可能会过度复制另一侧的信息，这可能掩盖底层数据质量问题。
未来方向： 作者建议探索考虑任务特定相关性的自适应路由策略，将 MoIR 扩展到视频‑文本场景，并将其与自监督预训练结合，以学习模态无关的信息分数。

作者

Seulgi Kim
Mohit Prabhushankar
Ghassan AlRegib

论文信息

arXiv ID: 2604.16264v1
分类: cs.CV, cs.LG
发表时间: 2026年4月17日
PDF: 下载 PDF

[Paper] 信息路由器用于缓解视觉语言模型中的模态主导性

概述

关键贡献

方法论

结果与发现

实际意义

限制与未来工作

作者

论文信息

相关文章

[Paper] VEFX-Bench：全方位基准用于通用视频编辑与视觉特效

[Paper] 重新利用 3D 生成模型进行自回归布局生成

[Paper] 使用大型语言模型和知识图谱提升制造业机器学习模型的可解释性

[Paper] 学习具备洞察的推理用于非形式定理证明