MediaTek NPU 与 LiteRT：为下一代本地 AI 提供动力

发布: 1个月前 (2025年12月9日 GMT+8 15:18)

6 min read

原文: Google Developers Blog

Source: Google Developers Blog

LiteRT NeuroPilot 加速器的关键特性

LiteRT NeuroPilot 加速器不仅仅是基础加速，它提供了 统一的开发工作流和高级功能，旨在将 AI 生产化于 MediaTek NPU。亮点包括：

无缝统一的部署工作流 – 通过统一的 API 访问各种 MediaTek NPU，抽象掉 SDK 的复杂性。可在两种不同的编译工作流之间选择：离线（Ahead‑of‑Time，AOT）和在线（设备端），让你能够灵活地降低首次运行延迟或实现平台无关的模型分发。
丰富的生成式 AI 能力 – 我们的合作解锁了最前沿模型（如 Gemma 系列）的全部潜力，使得高级文本生成到全新多模态应用等复杂生成式 AI 功能直接在 NPU 上运行。
高效的跨平台开发 – 全新的 简化 C++ API（相较于之前的 C API 进行了改进）让构建高效的机器学习流水线更加容易。该 API 与 原生硬件缓冲区互操作性 无缝配合，支持从 AHardwareBuffer 零拷贝传输数据到 NPU，并能自动转换 OpenGL/OpenCL 缓冲区。这对于高吞吐、实时相机和视频应用至关重要。

无缝统一的部署工作流

传统上，开发者需要为众多 SoC 供应商和版本组合构建，并管理每个组合的编译模型和运行时分发。为了解决这个问题，我们创建了一个简单的 3 步工作流，让你的模型能够使用 NPU 加速运行。

完整、详细的指南以及 Colab 笔记本和示例应用可在我们的 LiteRT NPU 文档 中获取。

步骤 1：针对目标 SoC 的 AOT 编译（可选）。
使用 LiteRT Python 库将你的 .tflite 模型编译为支持的 SoC。详情请参阅 LiteRT AOT 编译教程。虽然是可选的，但强烈建议对较大的模型进行 AOT 编译，以减少设备端的初始化时间。此步骤对设备端编译不是必需的。
步骤 2：如果在 Android 上，使用 Google Play 部署 On‑device AI（PODAI）。
使用 LiteRT 将模型资产和所需的运行时库导出为 “AI Pack”，即 PODAI 使用的格式。将 AI Pack 复制到你的 Android 应用项目中。当用户通过 Google Play 安装你的应用时，服务会分析设备并自动将模型和运行时交付到兼容的设备上。
步骤 3：使用 LiteRT Runtime 进行推理。
LiteRT 抽象掉硬件碎片化。无论是 AOT 还是设备端编译，只需加载模型并在选项中指定 Accelerator.NPU。LiteRT 会处理其余工作，并提供强大的回退机制：你可以将 GPU 或 CPU 设为次要选项，LiteRT 会在 NPU 不可用时自动使用它们。

AOT 与设备端编译

借助全新的 LiteRT NeuroPilot 加速器，我们从高级封装层转向 直接、原生的 NeuroPilot 编译器和运行时集成。这使得强大的 Ahead‑of‑Time (AOT) 编译 工作流成为可能，之前难以实现，为开发者的部署策略提供了更大的灵活性：

离线（AOT）编译 – 适用于目标 SoC 已知的大型复杂模型。提前编译可显著降低初始化成本，并在用户启动应用时降低内存占用。
在线（设备端）编译 – 适合平台无关分发的小模型。模型在用户设备上初始化时进行编译，无需额外的准备步骤，但会产生更高的首次运行开销。

对大型模型（例如 Gemma 3 270M）进行的两种方式对比显示，设备端编译可能需要超过一分钟，因此在生产环境中 AOT 更为实用。

Gemma 3 270 AOT_JIT

使用 Gemma 与其他开源模型的丰富生成式 AI 能力

在受支持的 Android 设备上，你可以通过 ML Kit 使用 Gemini Nano。对于 Gemini Nano 未支持的市场或需要更深度定制的用例，我们现在解锁了开源模型的全部潜力。这包括 Google 的 Gemma 系列模型——轻量级、最前沿的开源模型，专为设备端使用场景进行优化。

正如在 MediaTek 最近的 Dimensity 9500 事件上所宣布的，我们的合作为其最新芯片组提供了经过优化、可直接投产的以下模型支持：

Qwen3 0.6B – 为中国大陆 OEM（如小米、华为、Vivo）提供新 AI 体验的基础模型。
Gemma 3 270M – 超高效、紧凑的基础模型，适用于任务特定微调，能够实现高速、低延迟的功能，如情感分析或实体抽取。

MediaTek NPU 与 LiteRT：为下一代本地 AI 提供动力

LiteRT NeuroPilot 加速器的关键特性

无缝统一的部署工作流

AOT 与设备端编译

使用 Gemma 与其他开源模型的丰富生成式 AI 能力

相关文章

介绍 A2UI：一个面向代理驱动界面的开源项目

使用 Google Antigravity，构建我们的新 agentic 开发平台

使用 Gemini 3 在 Jules 中构建

不信任，验证：在 Google Cloud 上构建端到端机密应用