MediaTek NPU 与 LiteRT:为下一代本地 AI 提供动力
Source: Google Developers Blog
LiteRT NeuroPilot 加速器的关键特性
LiteRT NeuroPilot 加速器不仅仅是基础加速,它提供了 统一的开发工作流和高级功能,旨在将 AI 生产化于 MediaTek NPU。亮点包括:
- 无缝统一的部署工作流 – 通过统一的 API 访问各种 MediaTek NPU,抽象掉 SDK 的复杂性。可在两种不同的编译工作流之间选择:离线(Ahead‑of‑Time,AOT)和在线(设备端),让你能够灵活地降低首次运行延迟或实现平台无关的模型分发。
- 丰富的生成式 AI 能力 – 我们的合作解锁了最前沿模型(如 Gemma 系列)的全部潜力,使得高级文本生成到全新多模态应用等复杂生成式 AI 功能直接在 NPU 上运行。
- 高效的跨平台开发 – 全新的 简化 C++ API(相较于之前的 C API 进行了改进)让构建高效的机器学习流水线更加容易。该 API 与 原生硬件缓冲区互操作性 无缝配合,支持从 AHardwareBuffer 零拷贝传输数据到 NPU,并能自动转换 OpenGL/OpenCL 缓冲区。这对于高吞吐、实时相机和视频应用至关重要。
无缝统一的部署工作流
传统上,开发者需要为众多 SoC 供应商和版本组合构建,并管理每个组合的编译模型和运行时分发。为了解决这个问题,我们创建了一个简单的 3 步工作流,让你的模型能够使用 NPU 加速运行。
完整、详细的指南以及 Colab 笔记本和示例应用可在我们的 LiteRT NPU 文档 中获取。
-
步骤 1:针对目标 SoC 的 AOT 编译(可选)。
使用 LiteRT Python 库将你的.tflite模型编译为支持的 SoC。详情请参阅 LiteRT AOT 编译教程。虽然是可选的,但强烈建议对较大的模型进行 AOT 编译,以减少设备端的初始化时间。此步骤对设备端编译不是必需的。 -
步骤 2:如果在 Android 上,使用 Google Play 部署 On‑device AI(PODAI)。
使用 LiteRT 将模型资产和所需的运行时库导出为 “AI Pack”,即 PODAI 使用的格式。将 AI Pack 复制到你的 Android 应用项目中。当用户通过 Google Play 安装你的应用时,服务会分析设备并自动将模型和运行时交付到兼容的设备上。 -
步骤 3:使用 LiteRT Runtime 进行推理。
LiteRT 抽象掉硬件碎片化。无论是 AOT 还是设备端编译,只需加载模型并在选项中指定Accelerator.NPU。LiteRT 会处理其余工作,并提供强大的回退机制:你可以将 GPU 或 CPU 设为次要选项,LiteRT 会在 NPU 不可用时自动使用它们。
AOT 与设备端编译
借助全新的 LiteRT NeuroPilot 加速器,我们从高级封装层转向 直接、原生的 NeuroPilot 编译器和运行时集成。这使得强大的 Ahead‑of‑Time (AOT) 编译 工作流成为可能,之前难以实现,为开发者的部署策略提供了更大的灵活性:
- 离线(AOT)编译 – 适用于目标 SoC 已知的大型复杂模型。提前编译可显著降低初始化成本,并在用户启动应用时降低内存占用。
- 在线(设备端)编译 – 适合平台无关分发的小模型。模型在用户设备上初始化时进行编译,无需额外的准备步骤,但会产生更高的首次运行开销。
对大型模型(例如 Gemma 3 270M)进行的两种方式对比显示,设备端编译可能需要超过一分钟,因此在生产环境中 AOT 更为实用。

使用 Gemma 与其他开源模型的丰富生成式 AI 能力
在受支持的 Android 设备上,你可以通过 ML Kit 使用 Gemini Nano。对于 Gemini Nano 未支持的市场或需要更深度定制的用例,我们现在解锁了开源模型的全部潜力。这包括 Google 的 Gemma 系列模型——轻量级、最前沿的开源模型,专为设备端使用场景进行优化。
正如在 MediaTek 最近的 Dimensity 9500 事件上所宣布的,我们的合作为其最新芯片组提供了经过优化、可直接投产的以下模型支持:
- Qwen3 0.6B – 为中国大陆 OEM(如小米、华为、Vivo)提供新 AI 体验的基础模型。
- Gemma 3 270M – 超高效、紧凑的基础模型,适用于任务特定微调,能够实现高速、低延迟的功能,如情感分析或实体抽取。