MediaTek NPU와 LiteRT: 온디바이스 AI 차세대를 구동하다

발행: 1개월 전 (2025년 12월 9일 오후 04:18 GMT+9)

8 min read

Source: Google Developers Blog

LiteRT NeuroPilot Accelerator의 주요 기능

기본 가속을 훨씬 뛰어넘어, LiteRT NeuroPilot Accelerator는 통합 개발 워크플로와 정교한 기능을 제공하여 MediaTek NPU에서 AI를 프로덕션 수준으로 구현하도록 설계되었습니다. 주요 내용은 다음과 같습니다:

원활하고 통합된 배포 워크플로 – SDK 복잡성을 추상화하는 통합 API를 통해 다양한 MediaTek NPU에 접근합니다. 두 가지 별도 컴파일 워크플로 중 하나를 선택할 수 있습니다: 오프라인(Ahead‑of‑Time, AOT)과 온라인(디바이스 내) 방식으로, 첫 실행 지연 시간을 최소화하거나 플랫폼에 구애받지 않는 모델 배포를 가능하게 합니다.
풍부한 생성 AI 기능 – 우리의 협업을 통해 Gemma 시리즈와 같은 최신 모델의 전체 잠재력을 활용할 수 있게 되었으며, 고급 텍스트 생성부터 새로운 멀티모달 애플리케이션까지 NPU에서 직접 실행되는 정교한 생성 AI 기능을 제공합니다.
효율적인 크로스‑플랫폼 개발 – 이전 C API를 개선한 단순화된 C++ API 덕분에 고효율 ML 파이프라인 구축이 쉬워졌습니다. 이 API는 Native Hardware Buffer Interoperability와 원활히 작동하여 AHardwareBuffer 를 NPU로 바로 제로‑카피 전달하거나 OpenGL/OpenCL 버퍼를 자동 변환합니다. 이는 고처리량 실시간 카메라·비디오 애플리케이션에 필수적입니다.

원활하고 통합된 배포 워크플로

전통적으로 개발자는 다양한 SoC 공급업체와 버전에 맞춰 모델과 런타임을 각각 배포해야 했습니다. 이를 해결하기 위해 우리는 모델을 NPU 가속으로 실행할 수 있는 간단한 3단계 워크플로를 만들었습니다.

전체 상세 가이드와 Colab 노트북, 샘플 앱은 LiteRT NPU 문서 에서 확인할 수 있습니다.

Step 1: 대상 SoC용 AOT 컴파일 (선택 사항).
LiteRT Python 라이브러리를 사용해 .tflite 모델을 지원되는 SoC용으로 컴파일합니다. 자세한 내용은 LiteRT AOT Compilation Tutorial 을 참고하세요. 선택 사항이지만, 큰 모델의 경우 디바이스 초기화 시간을 줄이기 위해 AOT 컴파일을 강력히 권장합니다. 디바이스 내 컴파일에는 이 단계가 필요 없습니다.
Step 2: Android인 경우 Google Play를 통한 On‑device AI (PODAI) 배포.
LiteRT를 사용해 모델 자산과 필요한 런타임 라이브러리를 “AI Pack” 형식으로 내보냅니다. 이 AI Pack을 Android 앱 프로젝트에 복사하면, 사용자가 Google Play에서 앱을 설치할 때 서비스가 디바이스를 분석하고 호환 가능한 모델과 런타임을 자동으로 전달합니다.
Step 3: LiteRT Runtime을 이용한 추론.
LiteRT는 하드웨어 파편화를 추상화합니다. AOT이든 디바이스 내 컴파일이든, 모델을 로드하고 옵션에 Accelerator.NPU 를 지정하기만 하면 됩니다. LiteRT는 나머지를 처리하며, NPU가 사용 불가능할 경우 GPU 또는 CPU를 보조 옵션으로 지정하면 자동으로 전환되는 견고한 폴백 메커니즘을 제공합니다.

AOT와 디바이스 내 컴파일

새로운 LiteRT NeuroPilot Accelerator 덕분에 우리는 고수준 래퍼에서 NeuroPilot 컴파일러와 런타임에 대한 직접적인 네이티브 통합으로 전환했습니다. 이를 통해 이전에는 접근하기 어려웠던 강력한 Ahead‑of‑Time (AOT) 컴파일 워크플로를 제공하며, 개발자는 배포 전략에 따라 유연하게 선택할 수 있습니다:

오프라인 (AOT) 컴파일 – 대상 SoC가 명확한 대형·복잡 모델에 최적화됩니다. 사전 컴파일을 통해 초기화 비용을 크게 줄이고 메모리 사용량도 낮출 수 있어 사용자가 앱을 실행할 때 부담이 적습니다.
온라인 (디바이스 내) 컴파일 – 플랫폼에 구애받지 않는 소형 모델 배포에 이상적입니다. 모델이 사용자의 디바이스에서 초기화 시점에 컴파일되므로 별도 준비 단계가 필요 없지만, 첫 실행 비용이 더 높습니다.

대형 모델(예: Gemma 3 270M) 기준 두 접근 방식을 비교하면, 디바이스 내 컴파일에 1분 이상이 소요될 수 있어 프로덕션에서는 AOT가 더 실용적인 선택임을 알 수 있습니다.

Gemma 3 270 AOT_JIT

Gemma 및 기타 오픈‑웨이트 모델을 활용한 풍부한 생성 AI 기능

지원되는 Android 디바이스에서는 ML Kit 을 통해 Gemini Nano를 사용할 수 있습니다. Gemini Nano가 지원되지 않는 시장이나 보다 깊은 커스터마이징이 필요한 경우, 이제 우리는 오픈‑웨이트 모델의 전체 잠재력을 열어줍니다. 여기에는 Google의 Gemma 모델군이 포함되며, 이는 경량이면서도 최신 기술을 적용한 오픈 모델로 디바이스 내 사용 사례에 최적화되었습니다.

MediaTek의 최근 Dimensity 9500 행사에서 발표된 바와 같이, 우리의 협업을 통해 최신 칩셋에서 다음 모델에 대한 최적화된 프로덕션‑레디 지원을 제공하게 되었습니다:

Qwen3 0.6B – 중국 본토 OEM(예: Xiaomi, Huawei, Vivo)들이 새로운 AI 경험을 구현하는 데 활용하는 기반 모델.
Gemma 3 270M – 작업‑특화 파인‑튜닝을 위해 설계된 초고효율·소형 베이스 모델로, 감성 분석이나 엔터티 추출과 같은 고속·저지연 기능을 가능하게 합니다.

MediaTek NPU와 LiteRT: 온디바이스 AI 차세대를 구동하다

LiteRT NeuroPilot Accelerator의 주요 기능

원활하고 통합된 배포 워크플로

AOT와 디바이스 내 컴파일

Gemma 및 기타 오픈‑웨이트 모델을 활용한 풍부한 생성 AI 기능

관련 글

A2UI 소개: 에이전트 기반 인터페이스를 위한 오픈 프로젝트

Google Antigravity와 함께 빌드하세요, 우리의 새로운 agentic 개발 플랫폼

Jules에서 Gemini 3으로 빌드하기

믿지 말고 검증하라: Google Cloud에서 엔드투엔드 기밀 애플리케이션 구축