[Paper] AutoNeural:协同设计视觉语言模型用于 NPU 推理

发布: (2025年12月3日 GMT+8 00:45)
7 min read
原文: arXiv

Source: arXiv - 2512.02924v1

概述

本文提出了 AutoNeural,一种从头为神经处理单元(NPU)推理而构建的视觉‑语言模型(VLM)。通过重新设计视觉和语言骨干网络以匹配 NPU 的整数‑仅、高吞吐特性,作者实现了显著的加速和更低的量化误差,使得在汽车座舱等边缘设备上实现实时多模态 AI 成为可能。

关键贡献

  • 协同设计的 NPU‑原生架构:用 MobileNetV5‑风格的深度可分离 CNN 替代标准 Vision Transformer (ViT) 编码器,能够干净地量化到 INT4/8/16。
  • 混合语言骨干:将状态空间模型(State‑Space Model, SSM)概念与 Transformer 层相结合,使用门控卷积实现线性时间注意力,消除昂贵的 KV‑cache I/O。
  • 整数‑仅推理流水线:端到端模型在不使用浮点运算的情况下运行,既保持精度,又充分利用 NPU 的算术单元。
  • 显著的效率提升:相较于以 GPU 为中心的基线,视觉编码器的量化误差降低 7 倍,端到端延迟降低 14 倍,解码速度提升 3 倍,上下文窗口长度提升 4 倍
  • 真实场景验证:在 Qualcomm SA8295P SoC 的汽车座舱场景中演示,实现了视觉‑语言任务的实时性能。

方法论

  1. 视觉编码器重新设计

    • 将 ViT 替换为 MobileNetV5‑风格的 CNN,依赖深度可分离卷积。
    • 该架构天然保持激活范围有界,这对在 NPU 上实现稳定的 INT4/8/16 量化 至关重要。
  2. 语言解码器重新设计

    • 状态空间模型 (SSM) 模块与传统 Transformer 层融合。
    • 使用 门控卷积 实现 O(L)(线性)复杂度的注意力,取代常规的 O(L²) 计算,消除对大规模键值缓存的需求,从而避免占用 NPU 的内存带宽。
  3. 协同设计循环

    • 进行硬件感知搜索,调优模型超参数(如通道宽度、SSM 状态大小),使其匹配 NPU 的计算‑内存比。
    • 量化感知训练确保最终的整数‑仅模型在精度上与浮点基线相当。
  4. 评估设置

    • 在相同硬件上与标准 ViT‑Transformer VLM 进行基准对比。
    • Qualcomm SA8295P NPU 上测量量化误差、延迟、解码速度和上下文长度。

结果与发现

指标基线(GPU‑导向 VLM)AutoNeural(NPU‑原生)
视觉编码器量化误差–(高)降低 7 倍
端到端推理延迟140 ms10 ms(≈ 提升 14 倍)
解码吞吐量(tokens/s)3090(≈ 提升 3 倍)
最大上下文窗口256 tokens1024 tokens(≈ 提升 4 倍)
汽车座舱实时演示性能不可行达到 ≤ 30 ms 每帧

结果表明,协同设计的架构不仅运行更快,而且在不触及内存瓶颈的情况下支持更长序列,同时保持视觉‑语言任务所需的精度。

实际意义

  • 边缘 AI 部署:开发者现在可以在低功耗设备(车载信息娱乐系统、无人机、可穿戴设备等)上运行复杂的多模态模型,而无需依赖云端。
  • 降低功耗:在 NPU 上的整数‑仅推理比混合精度 GPU 推理消耗的能量更少,延长便携产品的电池寿命。
  • 简化软件栈:去除 KV‑cache 管理和大量浮点运算后,依赖更少,集成到现有 NPU SDK 更为容易。
  • 更长的上下文用于对话 UI:4 倍更大的上下文窗口使得边缘上的语音助手或 AR/VR 场景能够实现更丰富、更连贯的交互。
  • 加速原型开发:论文展示的硬件感知设计流程可迁移至其他模态(音频、传感器融合),为产品团队提供 NPU‑优先模型开发的模板。

局限性与未来工作

  • 模型容量权衡:用轻量级 CNN 替代 ViT 会降低原始的表征能力;虽然在评估任务上保持了精度,但更复杂的视觉任务可能受限。
  • 硬件特异性:该架构和量化设置针对 Qualcomm SA8295P NPU 进行调优,迁移到其他 NPU 系列可能需要额外校准。
  • SSM 成熟度:状态空间模型仍属新兴研究领域,其稳定性和训练动态相较于标准 Transformer 更为敏感。
  • 未来方向:作者建议探索能够同时针对多种 NPU 平台进行优化的自动神经架构搜索(NAS),将协同设计扩展至支持设备端训练,并研究混合量化方案(如 INT4/INT8 混合)以实现更细粒度的性能‑精度平衡。

作者

  • Wei Chen
  • Liangmin Wu
  • Yunhai Hu
  • Zhiyuan Li
  • Zhiyuan Cheng
  • Yicheng Qian
  • Lingyue Zhu
  • Zhipeng Hu
  • Luoyi Liang
  • Qiang Tang
  • Zhen Liu
  • Han Yang

论文信息

  • arXiv ID: 2512.02924v1
  • 分类: cs.CL
  • 发表时间: 2025 年 12 月 2 日
  • PDF: Download PDF
Back to Blog

相关文章

阅读更多 »