MediaTek NPU와 LiteRT: 차세대 온‑디바이스 AI를 구동하다

발행: (2025년 12월 9일 오전 03:04 GMT+9)
10 min read

Source: Google Developers Blog

Neural Processing Unit (NPU)은 차세대 온‑디바이스 AI를 가능하게 하는 핵심 요소가 되었습니다. 수십 TOPS(테라 연산/초)의 최대 성능을 최소 전력 소모로 제공함으로써, NPU는 기존 엣지 디바이스에서는 불가능했던 복잡하고 연산량이 큰 생성형 AI 모델을 실행할 수 있게 합니다.

이러한 강력한 NPU는 플래그십 스마트폰, 노트북, 태블릿부터 스마트 홈 허브, IoT 디바이스에 이르기까지 방대한 생태계 제품의 엔진 역할을 합니다. 그러나 NPU에 AI를 배포하는 과정은 종종 어려워 널리 채택되는 데 장애가 되었습니다. NPU 분야는 수백 개의 SoC 변형이 서로 다른 디바이스 유형을 목표로 하면서 매우 다양해, 개발자가 컴파일러를 관리하고 런타임을 배포하는 데 큰 장벽이 됩니다. 기존 온‑디바이스 ML 인프라는 주로 CPU와 GPU에 맞춰져 있어, 특화된 NPU SDK와 그 고유의 컴파일 요구사항과 깊게 통합되지 못했습니다. 이로 인해 복잡하고 임시방편적인 배포 워크플로우가 생겨났습니다. 또한, NPU에서 효율적으로 실행되는 정교한 GenAI 모델을 구현하려면 고급 최적화와 특수 커널이 필요해 단순한 연산자 위임을 훨씬 넘어서는 작업이 요구됩니다.

MediaTek와 함께, 우리는 새로운 LiteRT NeuroPilot Accelerator 를 발표하게 되어 기쁩니다. 이는 TFLite NeuroPilot delegate의 근본적인 후속 제품으로, 전 세계 수백만 디바이스에 원활한 배포 경험, 최첨단 LLM 지원, 고성능을 제공합니다.

LiteRT NeuroPilot Accelerator의 주요 기능

기본 가속을 훨씬 뛰어넘어, LiteRT NeuroPilot Accelerator는 통합 개발 워크플로우와 정교한 기능을 제공하여 MediaTek NPU에서 AI를 프로덕션 수준으로 끌어올립니다. 주요 특징은 다음과 같습니다.

  • 원활하고 통합된 배포 워크플로우 – 통합 API를 통해 다양한 MediaTek NPU에 손쉽게 접근하고 SDK 복잡성을 추상화합니다. 오프라인(Ahead‑of‑Time, AOT)과 온라인(온‑디바이스) 컴파일 워크플로우 중 선택할 수 있습니다.
  • 풍부한 생성형 AI 기능Gemma 패밀리와 같은 최첨단 모델의 전체 잠재력을 활용해, NPU에서 고급 텍스트 생성 및 멀티모달 애플리케이션을 구현합니다.
  • 효율적인 크로스‑플랫폼 개발 – 이전 C API에서 개선된 새로운 단순화된 C++ APINative Hardware Buffer Interoperability와 원활히 작동해, AHardwareBuffer에서 NPU로의 제로‑복사 데이터 전달 및 OpenGL/OpenCL 버퍼와의 자동 변환을 지원합니다. 이는 고처리량 실시간 카메라·비디오 애플리케이션에 필수적입니다.

원활하고 통합된 배포 워크플로우

전통적으로 개발자는 다양한 SoC 공급업체·버전 조합에 맞춰 빌드하고, 각 조합에 대한 컴파일된 모델 및 런타임 배포를 관리해야 했습니다. 이를 해결하기 위해 우리는 모델을 NPU 가속으로 실행할 수 있는 간단한 3단계 워크플로우를 만들었습니다.

전체 상세 가이드와 Colab 노트북, 샘플 앱은 LiteRT NPU 문서 에서 확인할 수 있습니다.

Step 1: 대상 SoC용 AOT 컴파일 (선택)

LiteRT Python 라이브러리를 사용해 .tflite 모델을 지원되는 SoC용으로 컴파일합니다. 자세한 내용은 LiteRT AOT Compilation Tutorial 을 참고하세요. 선택 사항이지만, 큰 모델의 경우 AOT 컴파일을 통해 온‑디바이스 초기화 시간을 크게 줄일 수 있으므로 강력히 권장합니다. 온‑디바이스 컴파일에는 이 단계가 필요하지 않습니다.

Step 2: Google Play를 통한 온‑디바이스 AI 배포 (PODAI) (Android)

모델 자산과 필요한 런타임 라이브러리를 AI Pack 형태로 내보냅니다. AI Pack을 Android 앱 프로젝트에 복사합니다. 사용자가 Google Play에서 앱을 설치하면 서비스가 디바이스를 분석하고 호환 가능한 모델 및 런타임을 자동으로 전달합니다.

Step 3: LiteRT Runtime을 이용한 추론

LiteRT는 하드웨어 파편화를 추상화합니다. AOT든 온‑디바이스 컴파일이든, 모델을 로드하고 옵션에 Accelerator.NPU 를 지정하기만 하면 됩니다. LiteRT는 나머지를 처리하며, NPU가 사용 불가능할 경우 GPU 또는 CPU를 보조 옵션으로 지정하면 자동으로 전환하는 견고한 폴백 메커니즘을 제공합니다.

AOT와 온‑디바이스 컴파일

새로운 LiteRT NeuroPilot Accelerator 덕분에 우리는 고수준 래퍼에서 NeuroPilot 컴파일러 및 런타임과의 직접적인 네이티브 통합으로 전환했습니다. 이를 통해 이전에 접근하기 어려웠던 강력한 Ahead‑of‑Time (AOT) 컴파일 워크플로우를 제공해, 개발자가 배포 전략에 유연성을 가질 수 있게 됩니다.

  • 오프라인 (AOT) 컴파일 – 대상 SoC가 명확한 대형·복잡 모델에 최적. 사전 컴파일을 통해 초기화 비용을 크게 낮추고 메모리 사용량을 절감합니다.
  • 온라인 (온‑디바이스) 컴파일 – 플랫폼에 구애받지 않는 소형 모델 배포에 이상적. 앱 초기화 시 사용자의 디바이스에서 모델을 컴파일하므로 별도 준비 단계가 필요 없지만 첫 실행 시 비용이 더 높습니다.

비교 예시

Gemma 3 270M 같은 대형 모델은 온‑디바이스 컴파일에 1분 이상 소요될 수 있어, 프로덕션에서는 AOT가 더 실용적입니다.

Gemma 3 270 AOT_JIT

Gemma 및 기타 오픈‑웨이트 모델을 활용한 풍부한 생성형 AI 기능

지원되는 Android 디바이스에서는 ML Kit 을 통해 Gemini Nano를 사용할 수 있습니다. Gemini Nano가 지원되지 않는 시장이나 보다 깊은 커스터마이징이 필요한 경우, 우리는 이제 오픈‑웨이트 모델의 전체 잠재력을 열어줍니다. 여기에는 Google의 Gemma 모델 패밀리와 같이 온‑디바이스 사용 사례에 최적화된 경량·최첨단 오픈 모델이 포함됩니다.

MediaTek의 최신 Dimensity 9500 칩셋 발표와 함께, 우리의 협업을 통해 다음 모델에 대한 최적화된 프로덕션‑레디 지원을 제공하게 되었습니다.

  • Qwen3 0.6B – 중국 본토 OEM(샤오미, 화웨이, 비보 등)에서 새로운 AI 경험을 구현하는 기반 모델.
  • Gemma 3 270M – 작업‑특화 파인‑튜닝을 위해 설계된 초효율·컴팩트 베이스 모델로, 감성 분석이나 엔터티 추출과 같은 고속·저지연 기능을 가능하게 합니다.
Back to Blog

관련 글

더 보기 »

Jules에서 Gemini 3으로 빌드하기

2025년 11월 19일 화요일에 우리는 Gemini 3를 소개했습니다. Gemini 3는 Google의 가장 지능적인 모델로, 어떤 아이디어든 실현할 수 있도록 도와줍니다. 오늘 우리는 Gemini…