[Paper] AutoNeural：协同设计视觉语言模型用于 NPU 推理

发布: 2个月前 (2025年12月3日 GMT+8 00:45)

7 分钟阅读

原文: arXiv

Source: arXiv - 2512.02924v1

概述

本文提出了 AutoNeural，一种从头为神经处理单元（NPU）推理而构建的视觉‑语言模型（VLM）。通过重新设计视觉和语言骨干网络以匹配 NPU 的整数‑仅、高吞吐特性，作者实现了显著的加速和更低的量化误差，使得在汽车座舱等边缘设备上实现实时多模态 AI 成为可能。

协同设计的 NPU‑原生架构：用 MobileNetV5‑风格的深度可分离 CNN 替代标准 Vision Transformer (ViT) 编码器，能够干净地量化到 INT4/8/16。
混合语言骨干：将状态空间模型（State‑Space Model, SSM）概念与 Transformer 层相结合，使用门控卷积实现线性时间注意力，消除昂贵的 KV‑cache I/O。
整数‑仅推理流水线：端到端模型在不使用浮点运算的情况下运行，既保持精度，又充分利用 NPU 的算术单元。
显著的效率提升：相较于以 GPU 为中心的基线，视觉编码器的量化误差降低 7 倍，端到端延迟降低 14 倍，解码速度提升 3 倍，上下文窗口长度提升 4 倍。
真实场景验证：在 Qualcomm SA8295P SoC 的汽车座舱场景中演示，实现了视觉‑语言任务的实时性能。

视觉编码器重新设计
- 将 ViT 替换为 MobileNetV5‑风格的 CNN，依赖深度可分离卷积。
- 该架构天然保持激活范围有界，这对在 NPU 上实现稳定的 INT4/8/16 量化 至关重要。
语言解码器重新设计
- 将 状态空间模型 (SSM) 模块与传统 Transformer 层融合。
- 使用 门控卷积 实现 O(L)（线性）复杂度的注意力，取代常规的 O(L²) 计算，消除对大规模键值缓存的需求，从而避免占用 NPU 的内存带宽。
协同设计循环
- 进行硬件感知搜索，调优模型超参数（如通道宽度、SSM 状态大小），使其匹配 NPU 的计算‑内存比。
- 量化感知训练确保最终的整数‑仅模型在精度上与浮点基线相当。
评估设置
- 在相同硬件上与标准 ViT‑Transformer VLM 进行基准对比。
- 在 Qualcomm SA8295P NPU 上测量量化误差、延迟、解码速度和上下文长度。

结果表明，协同设计的架构不仅运行更快，而且在不触及内存瓶颈的情况下支持更长序列，同时保持视觉‑语言任务所需的精度。

模型容量权衡：用轻量级 CNN 替代 ViT 会降低原始的表征能力；虽然在评估任务上保持了精度，但更复杂的视觉任务可能受限。
硬件特异性：该架构和量化设置针对 Qualcomm SA8295P NPU 进行调优，迁移到其他 NPU 系列可能需要额外校准。
SSM 成熟度：状态空间模型仍属新兴研究领域，其稳定性和训练动态相较于标准 Transformer 更为敏感。
未来方向：作者建议探索能够同时针对多种 NPU 平台进行优化的自动神经架构搜索（NAS），将协同设计扩展至支持设备端训练，并研究混合量化方案（如 INT4/INT8 混合）以实现更细粒度的性能‑精度平衡。