[논문] FlexNPU: 동적 LLM 프리필·디코드 공동 배치를 위한 투명 NPU 가상화

발행: (2026년 6월 3일 PM 12:49 GMT+9)
10 분 소요
원문: arXiv

Source: arXiv - 2606.04415v1

개요

FlexNPU는 Huawei Ascend NPU용 경량 사용자‑공간 가상화 레이어를 도입하여 AI 서비스가 대형 언어 모델(LLM) 서빙 시 무거운 “prefill”(채우기) 단계와 지연에 민감한 “decode”(디코드) 단계를 동적으로 균형 맞출 수 있게 합니다. AscendCL API를 가로채어 FlexNPU는 모델 코드, 프레임워크, 드라이버를 전혀 수정하지 않고도 여러 물리 NPU에 작업을 스케줄링할 수 있으며, 거의 제로에 가까운 오버헤드로 처리량을 높이고 첫 토큰 지연 시간을 감소시킵니다.

핵심 기여

  • 투명한 NPU 가상화 – AscendCL 호출을 가로채고 애플리케이션에 가상 NPU 객체를 제공하는 사용자‑공간 데몬으로, 코드나 드라이버 수정이 필요 없습니다.
  • 단계 인식 스케줄링 – 프리필(pre‑compute) 단계와 디코드(메모리 대역폭/KV‑캐시) 단계를 구분하고, 보완적인 자원 사용을 활용하기 위해 동일하거나 다른 NPU에 동적으로 배치합니다.
  • 동적 PD(프리필‑디코드) 공동 배치 – 정적인 분산을 대체하는 유연한 정책으로, 워크로드 특성에 실시간으로 적응합니다.
  • 제로 오버헤드 추론 – 실험 결과 직접 NPU 패스스루와 비교했을 때 측정 가능한 지연이 없으며, 다수 시나리오에서 약간의 처리량 향상이 관찰됩니다.
  • 확장 가능한 평가 – 384‑카드 Ascend 910C 클러스터와 실제 LLM(DeepSeek‑R1, Qwen2.5‑7B)으로 검증했으며, 최대 26 % 처리량 증가와 92 % 이상 첫 토큰 지연 시간(TTFT) 감소를 달성했습니다.

방법론

  1. API 가로채기 – FlexNPU는 모든 AscendCL 함수를 감싸는 얇은 라이브러리를 주입합니다. 호출은 실제 하드웨어 자원을 소유한 디바이스‑별 데몬으로 전달됩니다.
  2. 가상 객체 관리 – 데몬은 컨텍스트, 스트림, 메모리 버퍼에 대한 가상 핸들을 생성하고, 필요 시 물리 자원에 매핑합니다.
  3. 연산자 디스패치 엔진 – 연산자가 실행되기 전에 FlexNPU는 현재 LLM 단계(프리필 vs. 디코드)를 검사하고, 경량 자원 모델(연산 vs. 메모리 대역폭)을 기반으로 적절한 NPU(또는 NPU 집합)를 선택합니다.
  4. 동적 스케줄링 정책 – 간단한 휴리스틱이 큐 길이와 자원 활용도를 모니터링하여, 프리필 폭발 이후 과소 활용된 NPU에 디코드 작업을 자동으로 이동하고 그 반대도 수행합니다.
  5. 평가 설정 – 공식 Huawei Ascend AI 프레임워크를 사용해 384‑카드 Ascend 910C 클러스터에서 실험을 진행했습니다. 비교 기준은 (a) 직접 패스스루(가상화 없음)와 (b) 정적 PD 분산(프리필과 디코드가 영구적으로 별도 NPU에 할당)입니다. 측정 지표는 처리량(토큰 / 초), TTFT, 전체 처리 시간(TPOT)입니다.

결과 및 발견

모델기준FlexNPU (정적 PD 대비)FlexNPU (직접 패스스루 대비)
DeepSeek‑R1 (384‑카드)+5.15 % 처리량 (PD) / +26.33 % (공동 배치)측정 가능한 오버헤드 없음; 일부 구성에서 약간의 처리량 상승
Qwen2.5‑7B정적 PD 공동 배치≈ 동일한 처리량TTFT ↓ > 92 % while TPOT stays flat
  • 제로 오버헤드: 가상화 레이어가 추가하는 지연은 < 0.5 %에 불과해 측정 잡음 수준입니다.
  • 처리량 향상: 프리필과 디코드가 미사용 연산 유닛을 공유하도록 함으로써 고정된 하드웨어 풀에서 초당 토큰 수를 추가로 끌어낼 수 있습니다.
  • 지연 개선: 디코드는 프리필이 끝나는 즉시 거의 바로 시작될 수 있어 첫 토큰 지연이 크게 감소합니다. 이는 인터랙티브 AI 서비스에 핵심적인 지표입니다.

실용적 시사점

  • 배포 간소화 – 운영자는 기존 Ascend 클러스터에서 코드를 재작성하거나 모델을 재컴파일할 필요 없이 LLM 서비스를 실행할 수 있습니다; FlexNPU는 드롭‑인 라이브러리 형태로 동작합니다.
  • 높은 활용도 – 데이터센터 운영자는 동일 하드웨어에 더 많은 추론 작업을 배치할 수 있어 CAPEX와 OPEX를 모두 절감할 수 있습니다.
  • 반응성 AI 애플리케이션 – 챗봇, 코드 어시스턴트, 검색 기반 생성 등은 TTFT 감소 덕분에 사용자 경험이 크게 향상됩니다.
  • 미래 대비 – 새로운 NPU가 출시되더라도 동일한 가상화 접근법을 확장할 수 있어 소프트웨어 스택에 대한 투자 보호와 다중 테넌트 격리, QoS 보장 같은 고급 스케줄링을 가능하게 합니다.
  • 클라우드 서비스 가능성 – NPU 가속 추론을 제공하는 클라우드 사업자는 가상 NPU 엔드포인트를 테넌트에 공개해, 정적 디바이스 할당이 아닌 실제 자원 사용량 기반 세밀한 과금이 가능합니다.

제한 사항 및 향후 연구

  • 하드웨어 종속성 – FlexNPU는 Huawei Ascend CL 전용으로 설계되었으며, NVIDIA Tensor Core, Intel Gaudi 등 다른 NPU 생태계로 포팅하려면 새로운 가로채기 레이어가 필요합니다.
  • 스케줄링 휴리스틱 – 현재 정책은 규칙 기반이며, 강화 학습이나 예측 분석과 같은 고급 모델을 도입하면 변동성이 큰 워크로드에서도 단계 균형을 더욱 최적화할 수 있습니다.
  • 보안 격리 – 가상화가 디바이스를 추상화하긴 하지만, 다중 테넌트 퍼블릭 클라우드 환경을 위해서는 샌드박스 메모리 공간 등 강력한 격리 메커니즘이 추가로 요구됩니다.
  • 확장성 테스트 – 실험은 384‑카드 클러스터에 한정됐으며, 더 큰 연합형 배포나 혼합 정밀도 워크로드에 대한 평가는 아직 남아 있습니다.

FlexNPU는 투명한 NPU 가상화가 단순한 연구 호기심을 넘어, LLM 서빙을 더 빠르고 저렴하며 관리하기 쉬운 실용적인 도구임을 입증합니다.

저자

  • Jiongjiong Gu
  • Jianfeng Wang
  • Zidong Han
  • Yongqiao Wang
  • Pengfei Xia
  • Mingjie Zhang
  • Hong Liu
  • Yuanyi Xia
  • Jiajia Chu
  • Yifeng Tang
  • Hui Zang
  • Xin Yao
  • Qijie Qiu
  • Yuzhao Wang
  • Chuanfei Xu
  • Lin Zhang
  • Zhuonan Lai
  • Hongming Huang
  • Jiawei Qiu
  • Gong Zhang
  • Zhong Ming
  • Weipeng Cao

논문 정보

  • arXiv ID: 2606.04415v1
  • Categories: cs.DC
  • Published: 2026년 6월 3일
  • PDF: Download PDF
0 조회
Back to Blog

관련 글

더 보기 »