[论文] LQA：一种轻量化量化自适应框架用于边缘上的视觉语言模型

发布: 3天前 (2026年2月8日 GMT+8 15:37)

8 分钟阅读

原文: arXiv

看起来您只提供了来源链接，但没有附上需要翻译的正文内容。请您把要翻译的文本粘贴过来，我会按照要求将其翻译成简体中文并保留原有的格式。谢谢！

概述

在智能手机、可穿戴设备或物联网网关上部署大型 Vision‑Language Models（VLM）一直是个棘手的问题：这些模型对内存需求大、计算密集，并且当输入数据分布发生变化（例如不同的光照、相机质量或领域）时，准确率会下降。论文 “LQA: A Lightweight Quantized‑Adaptive Framework for Vision‑Language Models on the Edge” 提出了一种实用的解决方案，使 VLM 能在边缘硬件上高效运行，并在无需大量梯度计算或云连接的情况下自动适应新数据。

关键贡献

Selective Hybrid Quantization (SHQ)： 一种感知模态的量化方案，对视觉和文本组件使用不同的位宽，在保留关键信息的同时降低内存使用。
Gradient‑free Test‑time Adaptation (TTA)： 一个适应循环，仅使用闭式、无梯度优化器更新极少量轻量参数，使其在内存/CPU受限的设备上可行。
End‑to‑end edge‑ready pipeline： 将 SHQ 与无梯度 TTA 结合成单一框架（LQA），可以最小的代码改动嵌入现有 VLM 中。
Comprehensive evaluation： 在覆盖合成损坏（如噪声、模糊）和真实场景域迁移（如夜间场景、医学影像）的 7 个公开数据集上展示出持续的提升。
Resource savings： 与全精度、基于梯度的 TTA 方法相比，内存占用降低最高可达 19.9 倍，同时适应精度平均提升约 4.5%。

方法论

模态感知量化
- 视觉分支： 对卷积特征提取器进行 4‑bit 量化，但保留一个 8‑bit “高精度通道”，用于对量化噪声高度敏感的注意力图。
- 文本分支： 保持 8‑bit，因为语言嵌入对激进量化的容忍度较低。
- 选择性混合量化 (SHQ) 根据离线进行的敏感性分析，动态决定哪些层使用较低位宽。
无梯度的测试时适应
- LQA 在多模态融合层之后放置一小组 适配器模块（≈0.1 % 的总参数），而不是对整个网络进行反向传播。
- 在新批次的推理过程中，适配器通过 闭式解 更新，该解来源于正则化最小二乘目标，使模型预测与自监督一致性损失对齐（例如，同一图文对的不同增强应产生相似的嵌入）。
- 由于更新是解析的，仅需矩阵乘法——无需梯度累积、优化器状态，内存开销极小。
部署流水线
- 先将量化后的 VLM 编译为目标边缘加速器（如 ARM Cortex‑A78、NPU）。
- 运行时，每个输入样本都会触发轻量级适配器更新；其余模型全部在量化整数算术下执行，保持速度和功耗效率。

结果与发现

数据集 / 迁移	基线 FP VLM（无 TTA）	基于梯度的 TTA	LQA（SHQ + 无梯度 TTA）
ImageNet‑C（合成腐败）	68.2 %	71.1 %	75.7 %（比基线提升 4.5 %）
夜间驾驶（真实场景）	61.4 %	63.0 %	66.8 %
医学 X‑光字幕生成	55.0 %	56.2 %	59.1 %
内存使用（MB）	1,200	1,200（全精度）	≈ 60（≈19.9× 缩减）
每批次适应延迟（ms）	12	45	14

准确率提升： 在所有七个基准测试中，LQA 始终优于未适应模型和最强的基于梯度的 TTA 基线，平均提升 4.5 % 的 top‑1 准确率。
内存与延迟： 混合量化将模型大小压缩至 100 MB 以下，无梯度更新仅增加几毫秒的开销，保持实时性能。
隐私保护： 由于适应完全在设备端进行且不交换梯度，用户数据永不离开边缘，符合 GDPR 类约束。

实际影响

Edge AI 产品： 开发者现在可以将强大的 VLM 能力（例如图像字幕生成、视觉问答）嵌入智能手机、AR 眼镜或工业相机中，而无需依赖云端回退。
降低 OTA 更新频率： 模型能够在运行时自行适应新的光照条件、传感器漂移或领域变化，从而减少昂贵固件发布的频率。
能源效率： 量化推理结合几乎零成本的自适应循环，可降低电池消耗——这对可穿戴设备和无人机尤为关键。
隐私优先的服务： 如设备端医学图像分析或个人照片整理等应用，可在本地适配用户特定数据，满足严格的隐私法规要求。
简化 DevOps： 因为 LQA 可通过即插即用的适配器与现有开源 VLM（如 CLIP、BLIP）协同工作，团队能够在不从头训练大型模型的情况下改造现有流水线。

限制与未来工作

对量化超参数的敏感性： SHQ 方案需要离线分析以决定每层的位宽；配置不当可能导致在未见硬件上的性能下降。
适配器容量： 当前的适配器故意设计得很小；虽然足以应对评估的迁移，但对于更极端的领域差距（例如，与自然图像差异巨大的医学模态），可能需要更大的适配块。
硬件兼容性： 论文面向通用 ARM‑基 NPU；在高度专用的加速器（如 Qualcomm Hexagon、Apple Neural Engine）上的性能仍需验证。
未来方向： 作者建议探索能够在设备上运行的 自动调优量化，将无梯度适配扩展到多模态生成任务，并整合 持续学习 机制以防止长期部署中的灾难性遗忘。

作者

Xin Wang
Hualin Zhou
Sheng Guang Wang
Ting Dang
Yu Zhang
Hong Jia
Tao Gu

论文信息

arXiv ID: 2602.07849v1
分类: cs.AI
出版日期: 2026年2月8日
PDF: 下载 PDF

[论文] LQA：一种轻量化量化自适应框架用于边缘上的视觉语言模型

概述

关键贡献

方法论

结果与发现

实际影响

限制与未来工作

作者

论文信息

相关文章

[Paper] Olaf-World：面向视频世界建模的潜在动作定向

[Paper] 面向可解释的联邦学习：理解差分隐私的影响

[Paper] 在流形上学习：利用表示编码器解锁标准 Diffusion Transformers

[论文] 循环 Transformer 的步级数据归因