[论文] LQA:一种轻量化量化自适应框架用于边缘上的视觉语言模型

发布: (2026年2月8日 GMT+8 15:37)
8 分钟阅读
原文: arXiv

看起来您只提供了来源链接,但没有附上需要翻译的正文内容。请您把要翻译的文本粘贴过来,我会按照要求将其翻译成简体中文并保留原有的格式。谢谢!

概述

在智能手机、可穿戴设备或物联网网关上部署大型 Vision‑Language Models(VLM)一直是个棘手的问题:这些模型对内存需求大、计算密集,并且当输入数据分布发生变化(例如不同的光照、相机质量或领域)时,准确率会下降。论文 “LQA: A Lightweight Quantized‑Adaptive Framework for Vision‑Language Models on the Edge” 提出了一种实用的解决方案,使 VLM 能在边缘硬件上高效运行,并在无需大量梯度计算或云连接的情况下自动适应新数据。

关键贡献

  • Selective Hybrid Quantization (SHQ): 一种感知模态的量化方案,对视觉和文本组件使用不同的位宽,在保留关键信息的同时降低内存使用。
  • Gradient‑free Test‑time Adaptation (TTA): 一个适应循环,仅使用闭式、无梯度优化器更新极少量轻量参数,使其在内存/CPU受限的设备上可行。
  • End‑to‑end edge‑ready pipeline: 将 SHQ 与无梯度 TTA 结合成单一框架(LQA),可以最小的代码改动嵌入现有 VLM 中。
  • Comprehensive evaluation: 在覆盖合成损坏(如噪声、模糊)和真实场景域迁移(如夜间场景、医学影像)的 7 个公开数据集上展示出持续的提升。
  • Resource savings: 与全精度、基于梯度的 TTA 方法相比,内存占用降低最高可达 19.9 倍,同时适应精度平均提升约 4.5%

方法论

  1. 模态感知量化

    • 视觉分支: 对卷积特征提取器进行 4‑bit 量化,但保留一个 8‑bit “高精度通道”,用于对量化噪声高度敏感的注意力图。
    • 文本分支: 保持 8‑bit,因为语言嵌入对激进量化的容忍度较低。
    • 选择性混合量化 (SHQ) 根据离线进行的敏感性分析,动态决定哪些层使用较低位宽。
  2. 无梯度的测试时适应

    • LQA 在多模态融合层之后放置一小组 适配器模块(≈0.1 % 的总参数),而不是对整个网络进行反向传播。
    • 在新批次的推理过程中,适配器通过 闭式解 更新,该解来源于正则化最小二乘目标,使模型预测与自监督一致性损失对齐(例如,同一图文对的不同增强应产生相似的嵌入)。
    • 由于更新是解析的,仅需矩阵乘法——无需梯度累积、优化器状态,内存开销极小。
  3. 部署流水线

    • 先将量化后的 VLM 编译为目标边缘加速器(如 ARM Cortex‑A78、NPU)。
    • 运行时,每个输入样本都会触发轻量级适配器更新;其余模型全部在量化整数算术下执行,保持速度和功耗效率。

结果与发现

数据集 / 迁移基线 FP VLM(无 TTA)基于梯度的 TTALQA(SHQ + 无梯度 TTA)
ImageNet‑C(合成腐败)68.2 %71.1 %75.7 %(比基线提升 4.5 %)
夜间驾驶(真实场景)61.4 %63.0 %66.8 %
医学 X‑光字幕生成55.0 %56.2 %59.1 %
内存使用(MB)1,2001,200(全精度)≈ 60(≈19.9× 缩减)
每批次适应延迟(ms)124514
  • 准确率提升: 在所有七个基准测试中,LQA 始终优于未适应模型和最强的基于梯度的 TTA 基线,平均提升 4.5 % 的 top‑1 准确率。
  • 内存与延迟: 混合量化将模型大小压缩至 100 MB 以下,无梯度更新仅增加几毫秒的开销,保持实时性能。
  • 隐私保护: 由于适应完全在设备端进行且不交换梯度,用户数据永不离开边缘,符合 GDPR 类约束。

实际影响

  • Edge AI 产品: 开发者现在可以将强大的 VLM 能力(例如图像字幕生成、视觉问答)嵌入智能手机、AR 眼镜或工业相机中,而无需依赖云端回退。
  • 降低 OTA 更新频率: 模型能够在运行时自行适应新的光照条件、传感器漂移或领域变化,从而减少昂贵固件发布的频率。
  • 能源效率: 量化推理结合几乎零成本的自适应循环,可降低电池消耗——这对可穿戴设备和无人机尤为关键。
  • 隐私优先的服务: 如设备端医学图像分析或个人照片整理等应用,可在本地适配用户特定数据,满足严格的隐私法规要求。
  • 简化 DevOps: 因为 LQA 可通过即插即用的适配器与现有开源 VLM(如 CLIP、BLIP)协同工作,团队能够在不从头训练大型模型的情况下改造现有流水线。

限制与未来工作

  • 对量化超参数的敏感性: SHQ 方案需要离线分析以决定每层的位宽;配置不当可能导致在未见硬件上的性能下降。
  • 适配器容量: 当前的适配器故意设计得很小;虽然足以应对评估的迁移,但对于更极端的领域差距(例如,与自然图像差异巨大的医学模态),可能需要更大的适配块。
  • 硬件兼容性: 论文面向通用 ARM‑基 NPU;在高度专用的加速器(如 Qualcomm Hexagon、Apple Neural Engine)上的性能仍需验证。
  • 未来方向: 作者建议探索能够在设备上运行的 自动调优量化,将无梯度适配扩展到多模态生成任务,并整合 持续学习 机制以防止长期部署中的灾难性遗忘。

作者

  • Xin Wang
  • Hualin Zhou
  • Sheng Guang Wang
  • Ting Dang
  • Yu Zhang
  • Hong Jia
  • Tao Gu

论文信息

  • arXiv ID: 2602.07849v1
  • 分类: cs.AI
  • 出版日期: 2026年2月8日
  • PDF: 下载 PDF
0 浏览
Back to Blog

相关文章

阅读更多 »