[Paper] AutoNeural:协同设计视觉语言模型用于 NPU 推理
发布: (2025年12月3日 GMT+8 00:45)
7 min read
原文: arXiv
Source: arXiv - 2512.02924v1
概述
本文提出了 AutoNeural,一种从头为神经处理单元(NPU)推理而构建的视觉‑语言模型(VLM)。通过重新设计视觉和语言骨干网络以匹配 NPU 的整数‑仅、高吞吐特性,作者实现了显著的加速和更低的量化误差,使得在汽车座舱等边缘设备上实现实时多模态 AI 成为可能。
关键贡献
- 协同设计的 NPU‑原生架构:用 MobileNetV5‑风格的深度可分离 CNN 替代标准 Vision Transformer (ViT) 编码器,能够干净地量化到 INT4/8/16。
- 混合语言骨干:将状态空间模型(State‑Space Model, SSM)概念与 Transformer 层相结合,使用门控卷积实现线性时间注意力,消除昂贵的 KV‑cache I/O。
- 整数‑仅推理流水线:端到端模型在不使用浮点运算的情况下运行,既保持精度,又充分利用 NPU 的算术单元。
- 显著的效率提升:相较于以 GPU 为中心的基线,视觉编码器的量化误差降低 7 倍,端到端延迟降低 14 倍,解码速度提升 3 倍,上下文窗口长度提升 4 倍。
- 真实场景验证:在 Qualcomm SA8295P SoC 的汽车座舱场景中演示,实现了视觉‑语言任务的实时性能。
方法论
-
视觉编码器重新设计
- 将 ViT 替换为 MobileNetV5‑风格的 CNN,依赖深度可分离卷积。
- 该架构天然保持激活范围有界,这对在 NPU 上实现稳定的 INT4/8/16 量化 至关重要。
-
语言解码器重新设计
- 将 状态空间模型 (SSM) 模块与传统 Transformer 层融合。
- 使用 门控卷积 实现 O(L)(线性)复杂度的注意力,取代常规的 O(L²) 计算,消除对大规模键值缓存的需求,从而避免占用 NPU 的内存带宽。
-
协同设计循环
- 进行硬件感知搜索,调优模型超参数(如通道宽度、SSM 状态大小),使其匹配 NPU 的计算‑内存比。
- 量化感知训练确保最终的整数‑仅模型在精度上与浮点基线相当。
-
评估设置
- 在相同硬件上与标准 ViT‑Transformer VLM 进行基准对比。
- 在 Qualcomm SA8295P NPU 上测量量化误差、延迟、解码速度和上下文长度。
结果与发现
| 指标 | 基线(GPU‑导向 VLM) | AutoNeural(NPU‑原生) |
|---|---|---|
| 视觉编码器量化误差 | –(高) | 降低 7 倍 |
| 端到端推理延迟 | 140 ms | 10 ms(≈ 提升 14 倍) |
| 解码吞吐量(tokens/s) | 30 | 90(≈ 提升 3 倍) |
| 最大上下文窗口 | 256 tokens | 1024 tokens(≈ 提升 4 倍) |
| 汽车座舱实时演示性能 | 不可行 | 达到 ≤ 30 ms 每帧 |
结果表明,协同设计的架构不仅运行更快,而且在不触及内存瓶颈的情况下支持更长序列,同时保持视觉‑语言任务所需的精度。
实际意义
- 边缘 AI 部署:开发者现在可以在低功耗设备(车载信息娱乐系统、无人机、可穿戴设备等)上运行复杂的多模态模型,而无需依赖云端。
- 降低功耗:在 NPU 上的整数‑仅推理比混合精度 GPU 推理消耗的能量更少,延长便携产品的电池寿命。
- 简化软件栈:去除 KV‑cache 管理和大量浮点运算后,依赖更少,集成到现有 NPU SDK 更为容易。
- 更长的上下文用于对话 UI:4 倍更大的上下文窗口使得边缘上的语音助手或 AR/VR 场景能够实现更丰富、更连贯的交互。
- 加速原型开发:论文展示的硬件感知设计流程可迁移至其他模态(音频、传感器融合),为产品团队提供 NPU‑优先模型开发的模板。
局限性与未来工作
- 模型容量权衡:用轻量级 CNN 替代 ViT 会降低原始的表征能力;虽然在评估任务上保持了精度,但更复杂的视觉任务可能受限。
- 硬件特异性:该架构和量化设置针对 Qualcomm SA8295P NPU 进行调优,迁移到其他 NPU 系列可能需要额外校准。
- SSM 成熟度:状态空间模型仍属新兴研究领域,其稳定性和训练动态相较于标准 Transformer 更为敏感。
- 未来方向:作者建议探索能够同时针对多种 NPU 平台进行优化的自动神经架构搜索(NAS),将协同设计扩展至支持设备端训练,并研究混合量化方案(如 INT4/INT8 混合)以实现更细粒度的性能‑精度平衡。
作者
- Wei Chen
- Liangmin Wu
- Yunhai Hu
- Zhiyuan Li
- Zhiyuan Cheng
- Yicheng Qian
- Lingyue Zhu
- Zhipeng Hu
- Luoyi Liang
- Qiang Tang
- Zhen Liu
- Han Yang
论文信息
- arXiv ID: 2512.02924v1
- 分类: cs.CL
- 发表时间: 2025 年 12 月 2 日
- PDF: Download PDF