[Paper] Delta-LLaVA:Base-then-Specialize 对齐用于令牌高效的视觉语言模型

发布: (2025年12月22日 GMT+8 07:02)
6 min read
原文: arXiv

Source: arXiv - 2512.18910v1

概览

Delta‑LLaVA 解决了多模态大语言模型(MLLMs)中最大的痛点之一:由密集视觉标记导致的巨大的计算开销。通过重新设计 visual‑to‑language 投影器,作者实现了一个 token‑efficient 的流水线,在保持推理质量的同时,大幅降低了推理延迟和训练时间。

关键贡献

  • DeltaProjection: 一种低秩、多层次对齐模块,在视觉特征进入语言模型之前,将原始视觉特征压缩到紧凑的子空间。
  • Base‑then‑Specialize Architecture: 一种两阶段设计,轻量级的“基础”投影器负责粗略对齐,随后少量 Transformer “专化”块在严格的 token 预算(144 tokens)下细化全局和局部上下文。
  • 显著加速: 相比传统 MLP 投影器,推理速度提升最高 55 %,预训练加速约 4‑5×,微调加速 1.5×
  • 广泛基准提升: 在标准视觉语言任务(如 VQAv2、COCO 描述)上实现一致的性能提升,尽管使用的视觉 token 大幅减少。
  • 大量消融实验: 表明大部分收益来源于早期 token 生成步骤,而非单纯增加 Transformer 层数。

方法论

  1. Vision Encoder → Multi‑Level Features: 标准的 CNN/ViT 在多个分辨率上提取特征图。
  2. DeltaProjection (Base Layer):
    • 对每个特征层应用 低秩线性变换(即 “delta”),将它们投影到共享的低维空间。
    • 该投影是 加性的:它学习原始特征与其紧凑表示之间的差异 (Δ),从而保持参数量低。
  3. Token Consolidation: 将投影后的特征拼接并使用简单的池化操作 下采样至 144 个 token
  4. Specialization Transformers: 在这 144 个 token 上使用一到三层浅层 Transformer 块(≈2‑4 层每块),使模型能够捕获更高阶的交互,而不会导致 token 数量爆炸。
  5. Language Model Integration: 将精炼后的 token 序列通过常规的 cross‑attention 机制送入 LLM(例如 LLaVA 的 LLM 主干)。

整个流水线支持端到端训练,但低秩基础对齐可以 单独预训练,进一步加速后续的微调。

Results & Findings

指标基线(MLP 投影器)Delta‑LLaVA(144 个 token)加速
VQAv2 accuracy73.1 %74.6 %+55 % inference
COCO Caption CIDEr124.3126.84‑5× pre‑train
LLaVA‑Chat win rate68 %70 %1.5× fine‑tune
FLOPs (per image)12.8 G5.6 G
  • Token 预算很重要: 当使用相同数量的 token(144)时,DeltaProjection 始终优于简单的下采样 + MLP 流程。
  • 消融实验: 移除专用的 Transformer 会导致性能下降约 1 %(绝对值),验证了它们在细化紧凑 token 集合中的作用。
  • 可扩展性: 对更高分辨率输入(最高 4K)的实验表明,Delta‑LLaVA 的运行时间随图像尺寸线性增长,而密集 token 化器则呈二次方增长。

实际意义

  • 更快的原型开发: 开发者可以在普通 GPU 上以 亚秒级延迟 迭代视觉语言应用(例如视觉助理、文档理解)。
  • 成本效益高的云部署: 更低的 FLOPs 直接转化为推理成本的下降,使大规模 MLLM 服务在经济上更具可行性。
  • 适合边缘部署: 紧凑的 token 表示(144 个 token ≈ 1 KB)在受限内存环境中轻松适配,为设备端多模态 AI(AR 眼镜、机器人)打开了可能性。
  • 简化的流水线集成: 由于 DeltaProjection 可直接替代常规的 MLP 投影器,现有的 LLaVA 风格堆栈只需极少的代码修改即可采用。
  • 面向未来的可扩展性: “先基准后专化”范式将粗粒度对齐与细粒度推理分离,使团队能够在不重新设计整个投影器的情况下,替换更强的视觉编码器或更大的语言骨干网。

限制与未来工作

  • Fixed Token Budget: 当前设计将令牌数量锁定为144;基于图像复杂度的动态令牌分配可能带来进一步提升。
  • Specialization Depth: 仅探索了浅层Transformer;对于需要细粒度空间推理的任务(例如详细的图表解析),可能需要更深的专门化。
  • Generalization to Non‑Vision Modalities: 虽然论文聚焦于图像,但将DeltaProjection扩展到视频或3‑D数据仍是未解之谜。
  • Benchmark Diversity: 实验仅限于主流视觉‑语言数据集;真实工业工作负载(例如医学影像报告)可能会暴露新的挑战。

作者建议探索 adaptive rank selection 用于DeltaProjection,并将 modal‑aware token budgeting 集成进来,作为下一代令牌高效MLLM的有前景方向。

作者

  • Mohamad Zamini
  • Diksha Shukla

论文信息

  • arXiv ID: 2512.18910v1
  • 分类: cs.CV
  • 发布时间: 2025年12月21日
  • PDF: 下载 PDF
Back to Blog

相关文章

阅读更多 »