[Paper] AutoNeural: NPU 추론을 위한 Vision‑Language Models 공동 설계

발행: (2025년 12월 3일 오전 01:45 GMT+9)
7 min read
원문: arXiv

Source: arXiv - 2512.02924v1

Overview

이 논문은 AutoNeural이라는 비전‑언어 모델(VLM)을 소개한다. 이 모델은 Neural Processing Units(NPUs)에서의 추론을 위해 처음부터 설계되었다. 비전 백본과 언어 백본을 모두 정수‑전용, 고처리량 특성에 맞게 재설계함으로써, 저자들은 극적인 속도 향상과 낮은 양자화 오류를 달성했으며, 자동차 콕핏과 같은 엣지 디바이스에서 실시간 멀티모달 AI가 가능하도록 만들었다.

Key Contributions

  • Co‑designed NPU‑native architecture: 기존 Vision Transformer(ViT) 인코더를 MobileNetV5‑스타일의 depthwise‑separable CNN으로 교체하여 INT4/8/16 양자화가 깔끔하게 이루어지도록 했다.
  • Hybrid language backbone: State‑Space Model(SSM) 개념을 Transformer 레이어와 결합하고, gated convolution을 사용해 선형‑시간 attention을 구현함으로써 비용이 큰 KV‑cache I/O를 제거했다.
  • Integer‑only inference pipeline: 전체 모델이 부동소수점 연산 없이 실행되어 정확도를 유지하면서 NPU 연산 유닛을 활용한다.
  • Substantial efficiency gains: 비전 인코더에서 7배 낮은 양자화 오류, 14배 낮은 엔드‑투‑엔드 지연 시간, 3배 빠른 디코딩, 그리고 GPU‑중심 베이스라인 대비 4배 긴 컨텍스트 윈도우를 달성했다.
  • Real‑world validation: 자동차 콕핏 시나리오에서 Qualcomm SA8295P SoC를 사용해 실시간 성능을 입증했다.

Methodology

  1. Vision Encoder Redesign

    • ViT를 MobileNetV5‑스타일 CNN으로 교체했으며, 이는 depthwise separable convolution에 기반한다.
    • 이 아키텍처는 활성화 범위가 자연스럽게 제한되어 NPU에서 INT4/8/16 양자화가 안정적으로 이루어진다.
  2. Language Decoder Redesign

    • State‑Space Model(SSM) 블록을 기존 Transformer 레이어와 통합했다.
    • gated convolution을 사용해 O(L)(선형) 복잡도의 attention을 구현함으로써, 일반적인 O(L²) 복잡도의 큰 키‑값 캐시가 필요 없어 NPU 메모리 대역폭을 크게 절감한다.
  3. Co‑Design Loop

    • 모델 하이퍼파라미터(예: 채널 폭, SSM 상태 크기)를 NPU의 compute‑to‑memory 비율에 맞추어 하드웨어‑인식 탐색을 수행했다.
    • 양자화 인식 학습을 통해 최종 정수‑전용 모델이 부동소수점 모델과 비슷한 정확도를 유지하도록 했다.
  4. Evaluation Setup

    • 동일 하드웨어에서 표준 ViT‑Transformer VLM과 비교 벤치마크를 수행했다.
    • Qualcomm SA8295P NPU에서 양자화 오류, 지연 시간, 디코딩 속도, 컨텍스트 길이를 측정했다.

Results & Findings

MetricBaseline (GPU‑oriented VLM)AutoNeural (NPU‑native)
Vision encoder quantization error– (high)7× lower
End‑to‑end inference latency140 ms10 ms (≈ 14× faster)
Decoding throughput (tokens/s)3090 (≈ 3×)
Maximum context window256 tokens1024 tokens (≈ 4×)
Real‑time performance on automotive cockpit demoNot feasibleAchieved ≤ 30 ms per frame

이 결과는 공동 설계된 아키텍처가 단순히 빠를 뿐만 아니라 메모리 병목 현상 없이 더 긴 시퀀스를 처리할 수 있음을 보여준다. 또한 비전‑언어 작업에 필요한 정확도도 유지한다.

Practical Implications

  • Edge AI Deployment: 개발자는 이제 복잡한 멀티모달 모델을 저전력 디바이스(예: 차량 인포테인먼트 시스템, 드론, 웨어러블)에서 클라우드로 오프로드하지 않고 실행할 수 있다.
  • Reduced Power Consumption: NPUs에서 정수‑전용 추론은 혼합 정밀도 GPU 추론에 비해 에너지 소모가 크게 낮아 배터리 수명을 연장한다.
  • Simplified Software Stack: KV‑cache 관리와 무거운 부동소수점 연산을 없애면서 의존성이 줄어들고 기존 NPU SDK와의 통합이 쉬워진다.
  • Longer Context for Conversational UI: 4배 큰 컨텍스트 윈도우는 엣지에서 음성 비서나 AR/VR 시나리오의 더 풍부하고 일관된 상호작용을 가능하게 한다.
  • Accelerated Prototyping: 논문에서 제시한 하드웨어‑인식 설계 흐름은 오디오, 센서 융합 등 다른 모달리티에도 적용 가능해, 제품 팀에게 NPU‑우선 모델 개발 템플릿을 제공한다.

Limitations & Future Work

  • Model Capacity Trade‑off: ViT를 경량 CNN으로 교체하면서 순수 표현력은 감소한다; 평가된 작업에서는 정확도를 유지했지만, 더 복잡한 비전 문제에서는 성능 저하가 발생할 수 있다.
  • Hardware Specificity: 아키텍처와 양자화 설정이 Qualcomm SA8295P NPU에 최적화되어 있어, 다른 NPU 제품군으로 이식하려면 추가 보정이 필요할 수 있다.
  • SSM Maturity: State‑Space Model은 아직 연구 초기 단계이며, 안정성 및 학습 역학이 표준 Transformer보다 까다로울 수 있다.
  • Future Directions: 저자들은 다중 NPU 플랫폼을 동시에 최적화하는 자동 신경망 구조 탐색(NAS) 도입, 온‑디바이스 학습을 포함한 공동 설계 확대, 그리고 혼합 INT4/INT8 양자화와 같은 하이브리드 양자화 스킴을 탐색해 성능‑정확도 균형을 더욱 미세 조정하는 방안을 제시한다.

Authors

  • Wei Chen
  • Liangmin Wu
  • Yunhai Hu
  • Zhiyuan Li
  • Zhiyuan Cheng
  • Yicheng Qian
  • Lingyue Zhu
  • Zhipeng Hu
  • Luoyi Liang
  • Qiang Tang
  • Zhen Liu
  • Han Yang

Paper Information

  • arXiv ID: 2512.02924v1
  • Categories: cs.CL
  • Published: December 2, 2025
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »

[Paper] Multi-LLM 협업을 통한 약물 추천

보건 의료가 확장 가능하고 신뢰할 수 있는 clinical decision support를 위해 AI를 점점 더 활용함에 따라, 모델 추론의 신뢰성을 보장하는 것이 여전히 중요한 과제로 남아 있습니다.