MediaTek NPU 与 LiteRT:驱动下一代设备端 AI

发布: (2025年12月9日 GMT+8 02:04)
8 min read

Source: Google Developers Blog

神经处理单元(NPU)已成为下一代设备端 AI 的关键驱动器。通过在极低功耗下提供数十 TOPS(万亿次运算每秒)的最大性能,NPU 让设备能够运行此前在普通边缘设备上不可能实现的复杂、计算密集的生成式 AI 模型。

这些强大的 NPU 是庞大而多样化生态系统的引擎,涵盖旗舰智能手机、笔记本、平板电脑以及智能家居中心和物联网设备等产品。然而,在 NPU 上部署 AI 往往困难重重,阻碍了其广泛采用。NPU 市场高度多样,拥有数百种针对不同设备类型的 SoC 变体,给开发者在管理编译器和分发运行时方面带来了巨大障碍。现有的设备端机器学习基础设施通常针对 CPU 和 GPU 进行优化,缺乏与专用 NPU SDK 及其独特编译需求的深度集成,导致部署工作流复杂且临时。更重要的是,要让复杂的生成式 AI 模型在 NPU 上高效运行,需要高级优化和专用内核,远超简单的算子委托。

我们与 MediaTek 合作,欣然宣布全新 LiteRT NeuroPilot Accelerator,这是 TFLite NeuroPilot delegate 的全新升级版,能够为全球数百万设备提供无缝部署体验、最前沿的 LLM 支持以及卓越性能。

LiteRT NeuroPilot Accelerator 的关键特性

LiteRT NeuroPilot Accelerator 超越了基础加速,提供 统一的开发工作流和高级功能,旨在让 AI 在 MediaTek NPU 上实现产品化。亮点包括:

  • 无缝统一的部署工作流 – 通过统一 API 轻松访问各种 MediaTek NPU,抽象掉 SDK 的复杂性。可在离线(Ahead‑of‑Time,AOT)和在线(设备端)编译工作流之间自由切换。
  • 丰富的生成式 AI 能力 – 解锁 Gemma 系列等最前沿模型的全部潜能,在 NPU 上直接实现高级文本生成和多模态应用。
  • 高效的跨平台开发 – 全新的 简化 C++ API(相较于之前的 C API 进行了改进)可与 Native Hardware Buffer Interoperability 无缝配合,实现从 AHardwareBuffer 到 NPU 的零拷贝数据传递,并自动支持 OpenGL/OpenCL 缓冲区的转换。这对高吞吐、实时相机和视频应用至关重要。

无缝统一的部署工作流

传统上,开发者需要针对不同的 SoC 供应商和版本组合进行构建,并管理每种组合的编译模型和运行时的分发。为了解决此问题,我们打造了一个简单的 3 步工作流,让模型能够快速获得 NPU 加速。

完整、详细的指南(含 Colab notebook 与示例应用)已在我们的 LiteRT NPU 文档 中提供。

步骤 1:针对目标 SoC 的 AOT 编译(可选)

使用 LiteRT Python 库将 .tflite 模型编译为支持的 SoC。详情请参阅 LiteRT AOT 编译教程。虽然是可选步骤,但强烈建议对较大的模型进行 AOT 编译,以缩短设备端的初始化时间。此步骤对设备端编译并非必需。

步骤 2:通过 Google Play 部署设备端 AI(PODAI)(Android)

将模型资产和所需的运行时库导出为 AI Pack(PODAI 使用的格式),并将 AI Pack 拷贝到 Android 应用项目中。当用户通过 Google Play 安装你的应用时,服务会分析设备并自动将模型与运行时交付到兼容的设备上。

步骤 3:使用 LiteRT Runtime 推理

LiteRT 抽象掉硬件碎片化。无论是 AOT 还是设备端编译,只需加载模型并在选项中指定 Accelerator.NPU。LiteRT 会处理剩余工作,并提供可靠的回退机制:你可以将 GPU 或 CPU 设为次要选项,若 NPU 不可用,LiteRT 会自动使用它们。

AOT 与设备端编译

借助全新的 LiteRT NeuroPilot Accelerator,我们从高级包装层转向 直接、原生的 NeuroPilot 编译器与运行时集成。这使得此前难以实现的强大 Ahead‑of‑Time (AOT) 编译 工作流成为可能,为开发者提供了部署策略的灵活性:

  • 离线(AOT)编译 – 适用于目标 SoC 已知的大型、复杂模型。提前编译可显著降低初始化成本并降低内存占用,提升用户启动体验。
  • 在线(设备端)编译 – 适合平台无关的小模型。模型在用户设备上首次初始化时进行编译,无需额外的预处理步骤,但会带来更高的首次运行开销。

对比示例

Gemma 3 270M 为例,设备端编译可能需要超过一分钟,因而在生产环境中更倾向于使用 AOT。

Gemma 3 270 AOT_JIT

通过 Gemma 与其他开源模型实现丰富的生成式 AI 能力

在受支持的 Android 设备上,你可以通过 ML Kit 使用 Gemini Nano。对于 Gemini Nano 未覆盖的市场或需要更深度定制的场景,我们现在开放了开源模型的全部潜能。这包括 Google 的 Gemma 系列——一套专为设备端使用场景优化的轻量级、最前沿开源模型。

正如 MediaTek 最近在 Dimensity 9500 事件上所宣布的,我们的合作为其最新芯片组提供了以下模型的优化、可投产支持:

  • Qwen3 0.6B – 为中国大陆 OEM(如小米、华为、Vivo)提供新 AI 体验的基础模型。
  • Gemma 3 270M – 超高效、体积小巧的基础模型,适用于任务特定微调,能够实现高速、低延迟的功能,如情感分析或实体抽取。
Back to Blog

相关文章

阅读更多 »

使用 Gemini 3 在 Jules 中构建

2025年11月19日 星期二,我们推出了 Gemini 3,Google 最智能的模型,能够帮助将任何想法付诸实现。今天,我们很高兴分享 Gemini……