[Paper] 通过基于注意力的可解释性优化多模态语言模型

发布: (2025年11月29日 GMT+8 01:21)
7 min read
原文: arXiv

Source: arXiv - 2511.23375v1

概览

本文提出了一种轻量化的方式来微调处理文本和图像的“大型多模态语言模型”(MLM)。通过检查模型的注意力模式,作者定位出哪些注意力头真正“关注”重要的视觉对象,然后仅对这些极小的网络部分进行适配。结果是训练成本大幅降低(约占参数的 0.01 %),同时在图像描述等任务上仍能获得显著提升。

关键贡献

  • 基于注意力的可解释性方法 for MLMs – 一套系统化的方法,用于衡量每个注意力头对关键视觉对象的关注程度。
  • Head Impact (HI) 分数 – 用于对注意力头在图像层面语义上的聚焦程度进行量化排序的指标。
  • PEFT 选择策略 – 利用 HI 分数挑选最具影响力的注意力头进行参数高效微调。
  • 新多模态数据集 – 包含图像、对象掩码和文本描述,支持对可解释性流水线进行可复现的评估。
  • 在 2–3 B 参数模型上的实证验证 – 表明微调最高 HI 头的效果优于随机或低 HI 头的选择。

方法论

  1. 收集注意力统计 – 在一批带有对象掩码的图像上运行预训练 MLM。对每个注意力头,计算其平均注意力权重落在掩码“关键对象”像素上的比例。
  2. 计算 Head Impact (HI) – 对这些平均值进行归一化,得到每个头的分数,反映其对语义重要区域的关注强度。
  3. 为 PEFT 选择头部 – 按 HI 分数排序,挑选前 k%(例如前 1 % 的头部,对应约 0.01 % 的总参数)。
  4. 仅微调选中的头部 – 对选中的头部应用轻量级适配器或 LoRA‑style 更新,同时冻结模型其余部分。
  5. 在图像描述上评估 – 在微调前后测量标准的描述指标(BLEU、CIDEr、SPICE),评估针对性更新的效果。

该流水线刻意保持简洁:利用已有的注意力图(无需额外监督)和直接的评分函数,易于嵌入任何基于 Transformer 的多模态模型。

结果与发现

  • HI 引导的微调优于基线 – 更新最高 HI 头部可使 CIDEr 提升约 3–4 分,而随机头部更新的提升不足 1 分。
  • 参数效率 – 最佳配置仅触及约 0.01 % 的总权重,却实现了全参数微调(100 % 参数)提升的约 70 %。
  • 跨模型规模的鲁棒性 – 在 2 B 与 3 B 参数 MLM 上的实验均表现出一致的增益,说明该方法具备可扩展性。
  • 可解释性洞察 – 可视化高 HI 头部发现它们关注对象边界(如 “dog”、 “bicycle”),验证了 HI 确实捕捉到有意义的视觉焦点。

实际意义

  • 成本效益高的模型适配 – 企业可以在不耗费大量 GPU 时长的情况下,将庞大的多模态模型适配到细分领域(如医学影像报告、电子商务商品描述)。
  • 更快的迭代周期 – 仅更新少量参数,使训练循环在分钟级完成,而非数小时,从而实现快速的 A/B 测试。
  • 部署时的灵活性 – 小型适配器可作为独立模块发布,保持基模型不变,简化跨服务的版本管理。
  • 更好的调试工具 – HI 分数本身即是诊断手段:开发者可快速看到模型的哪些部分真正“看到”了关注的对象,指导数据收集或模型架构的决策。

局限性与未来工作

  • 依赖对象掩码 – 计算 HI 需要关键对象的真实掩码;在某些领域大规模生成掩码可能并不容易。
  • 任务特异性 – 本研究聚焦于图像描述,尚需验证 HI 引导的 PEFT 在视觉定位、视频‑文本检索等其他多模态任务上的效果。
  • 选择粒度 – 整体头部的选择仍然较粗;未来可探索子头或 token 级别的剪枝,以实现更细粒度的效率提升。
  • 动态 HI – 当前的 HI 分数是静态的,基于固定数据集计算。实现训练期间的动态更新可能进一步提升性能和鲁棒性。

总体而言,本文在可解释性与高效模型定制之间搭建了一座务实的桥梁,为开发者从当今庞大的多模态语言模型中获得更多价值提供了新路径。

作者

  • Alexander Sergeev
  • Evgeny Kotelnikov

论文信息

  • arXiv ID: 2511.23375v1
  • 分类: cs.CL, cs.CV
  • 发布日期: 2025 年 11 月 28 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »