[Paper] 信息路由器用于缓解视觉语言模型中的模态主导性

发布: (2026年4月18日 GMT+8 01:20)
7 分钟阅读
原文: arXiv

Source: arXiv - 2604.16264v1

概述

视觉‑语言模型(VLM)已成为处理图像与文本融合任务的主力军,从图像描述到视觉问答皆是如此。然而,它们常常出现 模态主导 的现象——模型过度依赖视觉或文本流中的某一方,忽视了另一方提供的有用线索。论文《Information Router for Mitigating Modality Dominance in Vision‑Language Models》提出了 MoIR(多模态信息路由器),这是一种轻量级插件,在两条流融合之前平衡每个模态的信息量,从而实现更均衡的推理,并在某一模态出现噪声或缺失时提升模型的鲁棒性。

关键贡献

  • 信息层级融合: MoIR 检测“弱” token(信息量低的视觉或文本片段),并将更强模态的互补信息路由过去以丰富它们。
  • 模态无关设计: 适用于任何生成 token 级别嵌入的骨干网络(例如 CLIP、ViLT、BLIP)以及任何下游语言模型。
  • 实证验证: 在三个标准多模态基准(VQA、NLVR2 和 COCO‑Caption)上提升性能,覆盖多种模型规模。
  • 鲁棒性提升: 当有意降级某一模态(模糊图像、损坏字幕)时,仍能实现一致的准确率提升。
  • 可解释性: 提供 token 级别的可视化,展示信息如何重新分配,使模态主导性可观察且可控。

方法论

  1. 基于 token 的信息评分 – 对于每种模态,MoIR 计算每个 token 的简单“信息密度”分数(例如 token 嵌入的熵或学习得到的置信头)。分数低的 token 被标记为信息不足。
  2. 跨模态路由 – 当视觉 token 较弱时,MoIR 使用轻量相似度查找提取最相关的文本 token(反之亦然)。选中的补充 token 随后 添加(或拼接)到弱 token 上,生成增强的表示。
  3. 路由模块位置 – 增强后的 token 集在送入进行多模态推理的大语言模型(LLM)之前 替换 原始 token 流。路由器本身仅包含少量线性层,因而几乎不增加延迟。
  4. 训练 – MoIR 端到端使用下游任务损失进行训练;路由器学习识别哪些 token 需要帮助以及哪些来源 token 最有用。无需额外的模态支配监督。

整体流程可视化为:

Image → Vision Encoder → Token Embeddings → MoIR ← Text Encoder ← Caption → Token Embeddings → LLM → Output

结果与发现

基准基线(无 MoIR)+ MoIRΔ (↑)
VQA‑2.0(准确率)71.3%73.9%+2.6 pts
NLVR2(准确率)78.1%80.5%+2.4 pts
COCO‑Caption(CIDEr)124.6129.8+5.2 pts
  • 平衡的模态贡献: 归因分析显示,在所有任务中视觉与文本注意力的支配比例下降约 30 %。
  • 降级鲁棒性: 在图像模糊 50 % 的情况下,MoIR 能恢复约 1.8 % 的绝对准确率,而基线下降 4 %;在字幕词汇随机丢弃 30 % 时,MoIR 比基线提升约 2.1 %。
  • 效率: 路由器在单个 V100 GPU 上仅增加 < 5 ms 的推理开销,适用于实时服务。

这些数据表明,显式丰富弱 token 的效果优于仅对注意力头进行重新加权。

实际意义

  • 更可靠的多模态助手: 支持语音的图像搜索或聊天机器人在处理低质量照片(例如手机摄像头拍摄的)时,仍能保持答案质量。
  • 边缘部署: 由于 MoIR 是一个小型插件,开发者可以在边缘设备上对现有 VLM 进行改装,而无需重新训练整个主干网络。
  • 数据效率: 在一种模态(文本)易于获取而另一种模态(传感器图像)噪声较大的场景下,MoIR 能自动进行补偿,降低昂贵的数据清洗需求。
  • 安全性与偏差缓解: 通过防止模型过度依赖单一模态,MoIR 能降低因缺失视觉线索或对模糊文本误解而导致的幻觉风险。
  • 跨模态调试: 令牌级路由图为工程师提供了一种全新的诊断工具,可用于发现模型信息匮乏的部位,并指导数据收集工作。

限制与未来工作

  • 评分简易性: 当前的信息密度度量是启发式的;更复杂的不确定性估计器可能提升路由决策。
  • 仅限于 token 级别的骨干网络: 在特征图层面融合模态的模型(例如早期融合的 CNN‑RNN 混合体)可能需要架构调整才能受益于 MoIR。
  • 可能过度依赖强势模态: 在某一模态完全损坏的极端情况下,路由器可能会过度复制另一侧的信息,这可能掩盖底层数据质量问题。
  • 未来方向: 作者建议探索考虑任务特定相关性的自适应路由策略,将 MoIR 扩展到视频‑文本场景,并将其与自监督预训练结合,以学习模态无关的信息分数。

作者

  • Seulgi Kim
  • Mohit Prabhushankar
  • Ghassan AlRegib

论文信息

  • arXiv ID: 2604.16264v1
  • 分类: cs.CV, cs.LG
  • 发表时间: 2026年4月17日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »