[Paper] 从一对一到多对多:动态跨层注入用于深度视觉-语言融合

发布: (2026年1月16日 GMT+8 02:59)
7 min read
原文: arXiv

Source: arXiv - 2601.10710v1

概述

视觉语言模型(VLM)已成为许多需要“看与说”的 AI 产品的核心,从图像字幕工具到视觉助理。
然而,当前的 VLM 存在 视觉瓶颈:它们仅将视觉编码器的 最终 输出传递给语言模型,忽略了低层和中层视觉特征的丰富层次结构。论文《从一对一到多对多:用于深度视觉语言融合的动态跨层注入》提出了一种轻量级插件,使语言模型能够按需访问 任意 视觉层,从而显著提升多模态推理能力。

关键贡献

  • Cross‑Layer Injection (CLI) – 一个通用框架,在视觉编码器和大型语言模型(LLM)之间构建多对多桥梁。
  • Adaptive Multi‑Projection (AMP) – 将来自多个视觉深度的特征图对齐并压缩到共同空间,无需大量重新训练。
  • Adaptive Gating Fusion (AGF) – 一种上下文感知的门控机制,使 LLM 能在每个解码步骤决定哪些视觉信号最有用。
  • Parameter‑efficient integration – CLI 只增加极少量额外参数(约占模型总规模的 0.5 %),可直接嵌入现有 VLM 如 LLaVA‑OneVision 和 LLaVA‑1.5。
  • Broad empirical validation – 在 18 项涵盖字幕生成、视觉问答、推理和定位的基准上验证,较强基线提升 3–12 % 绝对值。

方法论

  1. 多层特征提取 – 视觉编码器(例如 ViT 或 ConvNeXt)在不同深度产生一系列隐藏状态,每个状态捕获不同粒度(边缘 → 纹理 → 对象 → 场景语义)。
  2. 自适应多投影 (AMP) – 将每层的特征图通过轻量线性投影(或小型 MLP)重新映射到统一维度。AMP 还学习一小组缩放因子,以防止深层特征主导浅层特征。
  3. 动态注入到 LLM – 在文本生成过程中,LLM 的解码器隐藏状态被送入 自适应门控融合 (AGF) 模块。AGF 通过 sigmoid 激活的注意力计算门控向量,根据当前语言上下文(例如正在回答的问题)为投影后的视觉 token 加权。
  4. 按需融合 – 加权后的视觉 token 与 LLM 的 token 嵌入拼接,使语言模型在每一步“查看”最相关的视觉线索,而不是被迫依赖单一静态视觉 token。
  5. 训练 – 仅微调 AMP 和 AGF 参数(约 1–2 M 参数)。其余视觉编码器和 LLM 保持冻结,使该方法能够快速适配新模型或数据集。

结果与发现

BenchmarkBaseline (LLaVA‑1.5)+ CLIRelative Gain
VQAv2 (answer accuracy)71.2 %78.4 %+7.2 %
COCO Caption (CIDEr)124.5133.8+7.5 %
OK-VQA (accuracy)45.1 %51.3 %+6.2 %
RefCOCO (referring expression)68.9 %74.5 %+5.6 %
ScienceQA (multimodal reasoning)78.0 %84.1 %+6.1 %
  • 在各任务上均有一致提升:无论是需要细粒度细节(目标检测)还是高层次推理(科学问答),CLI 对视觉层次结构的动态访问都有帮助。
  • 参数效率:仅增加 < 2 M 可训练参数即可实现 > 5 % 的绝对提升,远比重新训练整个视觉编码器更经济。
  • 可扩展性:相同的 CLI 模块可在 LLaVA‑OneVision(较小的 LLM)和 LLaVA‑1.5(13 B 模型)上使用,表明该方法随模型规模可扩展。

Practical Implications

  • 更丰富的 AI 助手 – 开发者可以将 CLI 嵌入聊天型助手(例如需要解析产品图片的客服机器人),让语言侧在运行时向视觉侧请求“更多细节”。
  • 改进的视觉调试工具 – 在构建解释模型决策的工具时,CLI 的门控信号能够揭示哪个视觉层对特定答案作出了贡献,帮助可解释性。
  • 成本效益高的模型升级 – 企业可以通过添加体积小的 CLI 插件来升级现有 VLM 部署,而无需重新训练庞大的视觉编码器,从而节省 GPU 时长和云费用。
  • 更好的多模态检索 – 将文本查询匹配到图像的搜索引擎可以利用多层线索(例如“丝绸面料”的纹理 vs. “红色汽车”的物体),提升相关性。
  • 边缘设备友好 – 由于 CLI 增加的参数和推理开销极小(仅几次矩阵乘法),可以部署在内存受限的设备 AI 芯片上。

限制与未来工作

  • Static vision encoder – CLI 并未微调底层视觉骨干网络,因此编码器中的任何系统性偏差或盲点仍然会保留。
  • Gating complexity – 虽然轻量,但 AGF 门控仍会对每个 token 引入一次计算,在极长的生成序列中可能成为瓶颈。
  • Generalization to non‑transformer vision models – 本文聚焦于 ViT 风格的编码器;将 AMP/AGF 扩展到基于 CNN 或混合骨干网络可能需要额外的工程工作。
  • Future directions suggested by the authors include:
    1. 与 CLI 联合训练视觉编码器,实现端到端的最优性。
    2. 探索层次化门控,使 LLM 能够同时请求 多个 层。
    3. 将 CLI 应用于视频‑语言模型,在该场景下时间动态为注入过程增加了另一维度。

作者

  • Cheng Chen
  • Yuyu Guo
  • Pengpeng Zeng
  • Jingkuan Song
  • Peng Di
  • Hang Yu
  • Lianli Gao

论文信息

  • arXiv ID: 2601.10710v1
  • Categories: cs.CV
  • Published: 2026年1月15日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »