[Paper] Delta-LLaVA：Base-then-Specialize 对齐用于令牌高效的视觉语言模型

发布: 1周前 (2025年12月22日 GMT+8 07:02)

6 min read

原文: arXiv

Source: arXiv - 2512.18910v1

概览

Delta‑LLaVA 解决了多模态大语言模型（MLLMs）中最大的痛点之一：由密集视觉标记导致的巨大的计算开销。通过重新设计 visual‑to‑language 投影器，作者实现了一个 token‑efficient 的流水线，在保持推理质量的同时，大幅降低了推理延迟和训练时间。

DeltaProjection: 一种低秩、多层次对齐模块，在视觉特征进入语言模型之前，将原始视觉特征压缩到紧凑的子空间。
Base‑then‑Specialize Architecture: 一种两阶段设计，轻量级的“基础”投影器负责粗略对齐，随后少量 Transformer “专化”块在严格的 token 预算（144 tokens）下细化全局和局部上下文。
显著加速: 相比传统 MLP 投影器，推理速度提升最高 55 %，预训练加速约 4‑5×，微调加速 1.5×。
广泛基准提升: 在标准视觉语言任务（如 VQAv2、COCO 描述）上实现一致的性能提升，尽管使用的视觉 token 大幅减少。
大量消融实验: 表明大部分收益来源于早期 token 生成步骤，而非单纯增加 Transformer 层数。

Vision Encoder → Multi‑Level Features: 标准的 CNN/ViT 在多个分辨率上提取特征图。
DeltaProjection (Base Layer):
- 对每个特征层应用 低秩线性变换（即 “delta”），将它们投影到共享的低维空间。
- 该投影是 加性的：它学习原始特征与其紧凑表示之间的差异 (Δ)，从而保持参数量低。
Token Consolidation: 将投影后的特征拼接并使用简单的池化操作 下采样至 144 个 token。
Specialization Transformers: 在这 144 个 token 上使用一到三层浅层 Transformer 块（≈2‑4 层每块），使模型能够捕获更高阶的交互，而不会导致 token 数量爆炸。
Language Model Integration: 将精炼后的 token 序列通过常规的 cross‑attention 机制送入 LLM（例如 LLaVA 的 LLM 主干）。

整个流水线支持端到端训练，但低秩基础对齐可以 单独预训练，进一步加速后续的微调。

指标	基线（MLP 投影器）	Delta‑LLaVA（144 个 token）	加速
VQAv2 accuracy	73.1 %	74.6 %	+55 % inference
COCO Caption CIDEr	124.3	126.8	4‑5× pre‑train
LLaVA‑Chat win rate	68 %	70 %	1.5× fine‑tune
FLOPs (per image)	12.8 G	5.6 G	—

更快的原型开发: 开发者可以在普通 GPU 上以 亚秒级延迟 迭代视觉语言应用（例如视觉助理、文档理解）。
成本效益高的云部署: 更低的 FLOPs 直接转化为推理成本的下降，使大规模 MLLM 服务在经济上更具可行性。
适合边缘部署: 紧凑的 token 表示（144 个 token ≈ 1 KB）在受限内存环境中轻松适配，为设备端多模态 AI（AR 眼镜、机器人）打开了可能性。
简化的流水线集成: 由于 DeltaProjection 可直接替代常规的 MLP 投影器，现有的 LLaVA 风格堆栈只需极少的代码修改即可采用。
面向未来的可扩展性: “先基准后专化”范式将粗粒度对齐与细粒度推理分离，使团队能够在不重新设计整个投影器的情况下，替换更强的视觉编码器或更大的语言骨干网。

Fixed Token Budget: 当前设计将令牌数量锁定为144；基于图像复杂度的动态令牌分配可能带来进一步提升。
Specialization Depth: 仅探索了浅层Transformer；对于需要细粒度空间推理的任务（例如详细的图表解析），可能需要更深的专门化。
Generalization to Non‑Vision Modalities: 虽然论文聚焦于图像，但将DeltaProjection扩展到视频或3‑D数据仍是未解之谜。
Benchmark Diversity: 实验仅限于主流视觉‑语言数据集；真实工业工作负载（例如医学影像报告）可能会暴露新的挑战。

作者建议探索 adaptive rank selection 用于DeltaProjection，并将 modal‑aware token budgeting 集成进来，作为下一代令牌高效MLLM的有前景方向。