[Paper] 从一对一到多对多：动态跨层注入用于深度视觉-语言融合

发布: 3周前 (2026年1月16日 GMT+8 02:59)

7 分钟阅读

原文: arXiv

Source: arXiv - 2601.10710v1

概述

视觉语言模型（VLM）已成为许多需要“看与说”的 AI 产品的核心，从图像字幕工具到视觉助理。
然而，当前的 VLM 存在 视觉瓶颈：它们仅将视觉编码器的最终输出传递给语言模型，忽略了低层和中层视觉特征的丰富层次结构。论文《从一对一到多对多：用于深度视觉语言融合的动态跨层注入》提出了一种轻量级插件，使语言模型能够按需访问任意视觉层，从而显著提升多模态推理能力。

关键贡献

Cross‑Layer Injection (CLI) – 一个通用框架，在视觉编码器和大型语言模型（LLM）之间构建多对多桥梁。
Adaptive Multi‑Projection (AMP) – 将来自多个视觉深度的特征图对齐并压缩到共同空间，无需大量重新训练。
Adaptive Gating Fusion (AGF) – 一种上下文感知的门控机制，使 LLM 能在每个解码步骤决定哪些视觉信号最有用。
Parameter‑efficient integration – CLI 只增加极少量额外参数（约占模型总规模的 0.5 %），可直接嵌入现有 VLM 如 LLaVA‑OneVision 和 LLaVA‑1.5。
Broad empirical validation – 在 18 项涵盖字幕生成、视觉问答、推理和定位的基准上验证，较强基线提升 3–12 % 绝对值。

方法论

多层特征提取 – 视觉编码器（例如 ViT 或 ConvNeXt）在不同深度产生一系列隐藏状态，每个状态捕获不同粒度（边缘 → 纹理 → 对象 → 场景语义）。
自适应多投影 (AMP) – 将每层的特征图通过轻量线性投影（或小型 MLP）重新映射到统一维度。AMP 还学习一小组缩放因子，以防止深层特征主导浅层特征。
动态注入到 LLM – 在文本生成过程中，LLM 的解码器隐藏状态被送入 自适应门控融合 (AGF) 模块。AGF 通过 sigmoid 激活的注意力计算门控向量，根据当前语言上下文（例如正在回答的问题）为投影后的视觉 token 加权。
按需融合 – 加权后的视觉 token 与 LLM 的 token 嵌入拼接，使语言模型在每一步“查看”最相关的视觉线索，而不是被迫依赖单一静态视觉 token。
训练 – 仅微调 AMP 和 AGF 参数（约 1–2 M 参数）。其余视觉编码器和 LLM 保持冻结，使该方法能够快速适配新模型或数据集。

结果与发现

Benchmark	Baseline (LLaVA‑1.5)	+ CLI	Relative Gain
VQAv2 (answer accuracy)	71.2 %	78.4 %	+7.2 %
COCO Caption (CIDEr)	124.5	133.8	+7.5 %
OK-VQA (accuracy)	45.1 %	51.3 %	+6.2 %
RefCOCO (referring expression)	68.9 %	74.5 %	+5.6 %
ScienceQA (multimodal reasoning)	78.0 %	84.1 %	+6.1 %

在各任务上均有一致提升：无论是需要细粒度细节（目标检测）还是高层次推理（科学问答），CLI 对视觉层次结构的动态访问都有帮助。
参数效率：仅增加 < 2 M 可训练参数即可实现 > 5 % 的绝对提升，远比重新训练整个视觉编码器更经济。
可扩展性：相同的 CLI 模块可在 LLaVA‑OneVision（较小的 LLM）和 LLaVA‑1.5（13 B 模型）上使用，表明该方法随模型规模可扩展。

Practical Implications

更丰富的 AI 助手 – 开发者可以将 CLI 嵌入聊天型助手（例如需要解析产品图片的客服机器人），让语言侧在运行时向视觉侧请求“更多细节”。
改进的视觉调试工具 – 在构建解释模型决策的工具时，CLI 的门控信号能够揭示哪个视觉层对特定答案作出了贡献，帮助可解释性。
成本效益高的模型升级 – 企业可以通过添加体积小的 CLI 插件来升级现有 VLM 部署，而无需重新训练庞大的视觉编码器，从而节省 GPU 时长和云费用。
更好的多模态检索 – 将文本查询匹配到图像的搜索引擎可以利用多层线索（例如“丝绸面料”的纹理 vs. “红色汽车”的物体），提升相关性。
边缘设备友好 – 由于 CLI 增加的参数和推理开销极小（仅几次矩阵乘法），可以部署在内存受限的设备 AI 芯片上。

限制与未来工作

Static vision encoder – CLI 并未微调底层视觉骨干网络，因此编码器中的任何系统性偏差或盲点仍然会保留。
Gating complexity – 虽然轻量，但 AGF 门控仍会对每个 token 引入一次计算，在极长的生成序列中可能成为瓶颈。
Generalization to non‑transformer vision models – 本文聚焦于 ViT 风格的编码器；将 AMP/AGF 扩展到基于 CNN 或混合骨干网络可能需要额外的工程工作。
Future directions suggested by the authors include:
1. 与 CLI 联合训练视觉编码器，实现端到端的最优性。
2. 探索层次化门控，使 LLM 能够同时请求多个层。
3. 将 CLI 应用于视频‑语言模型，在该场景下时间动态为注入过程增加了另一维度。

作者

Cheng Chen
Yuyu Guo
Pengpeng Zeng
Jingkuan Song
Peng Di
Hang Yu
Lianli Gao

论文信息

arXiv ID: 2601.10710v1
Categories: cs.CV
Published: 2026年1月15日
PDF: 下载 PDF

[Paper] 从一对一到多对多：动态跨层注入用于深度视觉-语言融合

概述

关键贡献

方法论

结果与发现

Practical Implications

限制与未来工作

作者

论文信息

相关文章

【论文】UniX：统一自回归与扩散用于胸部X光的理解与生成

[Paper] ShapeR：从随意捕获中实现稳健的条件3D形状生成

[Paper] ReScene4D：针对演化的室内3D场景的时间一致语义实例分割

[Paper] CTest-Metric：统一框架评估用于CT报告生成的指标的临床有效性