[논문] FlexNPU: 동적 LLM 프리필·디코드 공동 배치를 위한 투명 NPU 가상화

발행: 1주 전 (2026년 6월 3일 PM 12:49 GMT+9)

10 분 소요

원문: arXiv

Source: arXiv - 2606.04415v1

개요

FlexNPU는 Huawei Ascend NPU용 경량 사용자‑공간 가상화 레이어를 도입하여 AI 서비스가 대형 언어 모델(LLM) 서빙 시 무거운 “prefill”(채우기) 단계와 지연에 민감한 “decode”(디코드) 단계를 동적으로 균형 맞출 수 있게 합니다. AscendCL API를 가로채어 FlexNPU는 모델 코드, 프레임워크, 드라이버를 전혀 수정하지 않고도 여러 물리 NPU에 작업을 스케줄링할 수 있으며, 거의 제로에 가까운 오버헤드로 처리량을 높이고 첫 토큰 지연 시간을 감소시킵니다.

핵심 기여

투명한 NPU 가상화 – AscendCL 호출을 가로채고 애플리케이션에 가상 NPU 객체를 제공하는 사용자‑공간 데몬으로, 코드나 드라이버 수정이 필요 없습니다.
단계 인식 스케줄링 – 프리필(pre‑compute) 단계와 디코드(메모리 대역폭/KV‑캐시) 단계를 구분하고, 보완적인 자원 사용을 활용하기 위해 동일하거나 다른 NPU에 동적으로 배치합니다.
동적 PD(프리필‑디코드) 공동 배치 – 정적인 분산을 대체하는 유연한 정책으로, 워크로드 특성에 실시간으로 적응합니다.
제로 오버헤드 추론 – 실험 결과 직접 NPU 패스스루와 비교했을 때 측정 가능한 지연이 없으며, 다수 시나리오에서 약간의 처리량 향상이 관찰됩니다.
확장 가능한 평가 – 384‑카드 Ascend 910C 클러스터와 실제 LLM(DeepSeek‑R1, Qwen2.5‑7B)으로 검증했으며, 최대 26 % 처리량 증가와 92 % 이상 첫 토큰 지연 시간(TTFT) 감소를 달성했습니다.

방법론

API 가로채기 – FlexNPU는 모든 AscendCL 함수를 감싸는 얇은 라이브러리를 주입합니다. 호출은 실제 하드웨어 자원을 소유한 디바이스‑별 데몬으로 전달됩니다.
가상 객체 관리 – 데몬은 컨텍스트, 스트림, 메모리 버퍼에 대한 가상 핸들을 생성하고, 필요 시 물리 자원에 매핑합니다.
연산자 디스패치 엔진 – 연산자가 실행되기 전에 FlexNPU는 현재 LLM 단계(프리필 vs. 디코드)를 검사하고, 경량 자원 모델(연산 vs. 메모리 대역폭)을 기반으로 적절한 NPU(또는 NPU 집합)를 선택합니다.
동적 스케줄링 정책 – 간단한 휴리스틱이 큐 길이와 자원 활용도를 모니터링하여, 프리필 폭발 이후 과소 활용된 NPU에 디코드 작업을 자동으로 이동하고 그 반대도 수행합니다.
평가 설정 – 공식 Huawei Ascend AI 프레임워크를 사용해 384‑카드 Ascend 910C 클러스터에서 실험을 진행했습니다. 비교 기준은 (a) 직접 패스스루(가상화 없음)와 (b) 정적 PD 분산(프리필과 디코드가 영구적으로 별도 NPU에 할당)입니다. 측정 지표는 처리량(토큰 / 초), TTFT, 전체 처리 시간(TPOT)입니다.

결과 및 발견

모델	기준	FlexNPU (정적 PD 대비)	FlexNPU (직접 패스스루 대비)
DeepSeek‑R1 (384‑카드)	–	+5.15 % 처리량 (PD) / +26.33 % (공동 배치)	측정 가능한 오버헤드 없음; 일부 구성에서 약간의 처리량 상승
Qwen2.5‑7B	정적 PD 공동 배치	≈ 동일한 처리량	TTFT ↓ > 92 % while TPOT stays flat

제로 오버헤드: 가상화 레이어가 추가하는 지연은 < 0.5 %에 불과해 측정 잡음 수준입니다.
처리량 향상: 프리필과 디코드가 미사용 연산 유닛을 공유하도록 함으로써 고정된 하드웨어 풀에서 초당 토큰 수를 추가로 끌어낼 수 있습니다.
지연 개선: 디코드는 프리필이 끝나는 즉시 거의 바로 시작될 수 있어 첫 토큰 지연이 크게 감소합니다. 이는 인터랙티브 AI 서비스에 핵심적인 지표입니다.

실용적 시사점

배포 간소화 – 운영자는 기존 Ascend 클러스터에서 코드를 재작성하거나 모델을 재컴파일할 필요 없이 LLM 서비스를 실행할 수 있습니다; FlexNPU는 드롭‑인 라이브러리 형태로 동작합니다.
높은 활용도 – 데이터센터 운영자는 동일 하드웨어에 더 많은 추론 작업을 배치할 수 있어 CAPEX와 OPEX를 모두 절감할 수 있습니다.
반응성 AI 애플리케이션 – 챗봇, 코드 어시스턴트, 검색 기반 생성 등은 TTFT 감소 덕분에 사용자 경험이 크게 향상됩니다.
미래 대비 – 새로운 NPU가 출시되더라도 동일한 가상화 접근법을 확장할 수 있어 소프트웨어 스택에 대한 투자 보호와 다중 테넌트 격리, QoS 보장 같은 고급 스케줄링을 가능하게 합니다.
클라우드 서비스 가능성 – NPU 가속 추론을 제공하는 클라우드 사업자는 가상 NPU 엔드포인트를 테넌트에 공개해, 정적 디바이스 할당이 아닌 실제 자원 사용량 기반 세밀한 과금이 가능합니다.

제한 사항 및 향후 연구

하드웨어 종속성 – FlexNPU는 Huawei Ascend CL 전용으로 설계되었으며, NVIDIA Tensor Core, Intel Gaudi 등 다른 NPU 생태계로 포팅하려면 새로운 가로채기 레이어가 필요합니다.
스케줄링 휴리스틱 – 현재 정책은 규칙 기반이며, 강화 학습이나 예측 분석과 같은 고급 모델을 도입하면 변동성이 큰 워크로드에서도 단계 균형을 더욱 최적화할 수 있습니다.
보안 격리 – 가상화가 디바이스를 추상화하긴 하지만, 다중 테넌트 퍼블릭 클라우드 환경을 위해서는 샌드박스 메모리 공간 등 강력한 격리 메커니즘이 추가로 요구됩니다.
확장성 테스트 – 실험은 384‑카드 클러스터에 한정됐으며, 더 큰 연합형 배포나 혼합 정밀도 워크로드에 대한 평가는 아직 남아 있습니다.

FlexNPU는 투명한 NPU 가상화가 단순한 연구 호기심을 넘어, LLM 서빙을 더 빠르고 저렴하며 관리하기 쉬운 실용적인 도구임을 입증합니다.

저자

Jiongjiong Gu
Jianfeng Wang
Zidong Han
Yongqiao Wang
Pengfei Xia
Mingjie Zhang
Hong Liu
Yuanyi Xia
Jiajia Chu
Yifeng Tang
Hui Zang
Xin Yao
Qijie Qiu
Yuzhao Wang
Chuanfei Xu
Lin Zhang
Zhuonan Lai
Hongming Huang
Jiawei Qiu
Gong Zhang
Zhong Ming
Weipeng Cao

논문 정보

arXiv ID: 2606.04415v1
Categories: cs.DC
Published: 2026년 6월 3일
PDF: Download PDF

[논문] FlexNPU: 동적 LLM 프리필·디코드 공동 배치를 위한 투명 NPU 가상화

개요

핵심 기여

방법론

결과 및 발견

실용적 시사점

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[논문] 클레어보이언트: 직렬 LLM 백엔드의 헤드오브라인 차단을 완화하는 예측형 SJF 스케줄링

[논문] 클라우드 네이티브 및 연합 클라우드‑엣지 환경에서의 예측 자동 확장: 분류 체계와 향후 과제

[논문] PCCL: 프로세스 그룹 인식형 확장·범용 집합 알고리즘 합성기

[논문] 자율주행을 위한 미션 수준 런타임 보증 프레임워크