LiteRT：端侧 AI 的通用框架

发布: 3天前 (2026年2月23日 GMT+8 14:48)

11 分钟阅读

Source: Google Developers Blog

JAN. 28, 2026

自从我们在 2024 年首次推出 LiteRT以来，我们一直致力于将机器学习技术栈从 TensorFlow Lite (TFLite) 的基础演进为现代的设备端 AI 框架。虽然 TFLite 为传统机器学习树立了标准，但我们的使命是让开发者能够像过去集成传统机器学习一样，无缝部署当今最前沿的设备端 AI。

在 Google I/O ‘25 上，我们分享了这一演进的预览：一个专为高级硬件加速设计的高性能运行时。今天，我们很高兴宣布，这些高级加速能力已完全进入 LiteRT 生产栈，现已对所有开发者开放。

这一里程碑巩固了 LiteRT 作为 AI 时代通用设备端推理框架 的地位，较 TFLite 实现了显著跃迁，体现在：

更快 – GPU 性能比 TFLite 提升 1.4 倍，并引入全新的、最先进的 NPU 加速。
更简 – 为边缘平台上的 GPU 与 NPU 加速提供统一、简化的工作流。
更强 – 支持在流行开源模型（如 Gemma）上进行卓越的跨平台生成式 AI 部署。
更灵活 – 通过无缝模型转换，提供一流的 PyTorch/JAX 支持。

所有这些都在保持您自 TFLite 以来信赖的可靠、跨平台部署的前提下交付。

下面展示了 LiteRT 如何帮助您构建下一代设备端 AI。

高性能跨平台 GPU 加速

在 I/O ‘25 上宣布的 Android 首次 GPU 加速之后，我们很高兴推出面向 Android、iOS、macOS、Windows、Linux 和 Web 的完整、全面的 GPU 支持。此扩展为开发者提供了可靠的高性能加速选项，在经典 CPU 推理之上实现显著的性能提升。

GPU platform

LiteRT 通过 ML Drift（我们的下一代 GPU 引擎）支持 OpenCL、OpenGL、Metal 和 WebGPU，最大化覆盖范围，能够在移动端、桌面端和 Web 端高效部署。在 Android 上，LiteRT 会在可用时自动优先使用 OpenCL 以获得最佳性能，若不支持则回退到 OpenGL，以覆盖更多设备。

在 ML Drift 的加持下，LiteRT GPU 的性能 比传统 TFLite GPU delegate 平均提升 1.4 倍，显著降低了各类模型的延迟。更多基准结果请参见我们的之前的公告。

为实现高性能 AI 应用，我们引入了关键技术进展：

异步执行
零拷贝缓冲区互操作

这些特性消除了不必要的 CPU 开销，提升整体性能，满足背景分割、语音识别（ASR）等实时使用场景。实际使用中，它们可实现最高 2 倍加速，如我们的分割示例应用所示。想了解更深入的技术细节，请参阅我们的技术深度解析。

示例：使用 CompiledModel API（C++）进行 GPU 加速

// 1. 创建针对 GPU 的编译模型。
auto compiled_model = CompiledModel::Create(env, "mymodel.tflite",
                                           kLiteRtHwAcceleratorGpu);

// 2. 使用零拷贝包装 OpenGL 缓冲区。
auto input_buffer = TensorBuffer::CreateFromGlBuffer(env, tensor_type,
                                                    opengl_buffer);
std::vector<TensorBuffer*> input_buffers{input_buffer};
auto output_buffers = compiled_model.CreateOutputBuffers();

// 3. 执行模型。
compiled_model.Run(input_buffers, output_buffers);

// 4. 访问模型输出（AHardwareBuffer）。
auto ahwb = output_buffers[0]->GetAhwb();

更多关于LiteRT 跨平台开发和GPU 加速的说明，请参阅相应文档。

精简的 NPU 集成，实现峰值性能

虽然 CPU 和 GPU 提供了广泛的通用性，但 NPU 解锁了现代应用所需的流畅、响应迅速、高速的 AI 体验。数百种 NPU SoC 变体的碎片化传统上迫使开发者采用复杂的、临时的部署工作流。

LiteRT 通过 统一、简化的 NPU 部署工作流 解决了这一问题，该工作流抽象了底层、厂商特定的 SDK。整个过程仅需三个简单步骤：

AOT 编译（可选） – 使用 LiteRT Python 库为目标 SoC 预编译你的 .tflite 模型。
通过 Google Play 在 Android 上部署 On‑device AI（PODAI） – PODAI 会自动将模型和运行时交付到兼容设备。
使用 LiteRT Runtime 进行推理 – LiteRT 负责 NPU 委派，并在需要时提供可靠的 GPU 或 CPU 回退。

完整指南（包括 Colab 笔记本和示例应用）可在 LiteRT NPU 文档中查阅。

LiteRT 同时支持 提前编译 (AOT) 与 设备端编译 (JIT)：

AOT – 适用于已知目标 SoC 的复杂模型；可最大程度降低初始化时间和内存占用。
JIT – 适合在众多平台上分发的轻量模型；无需预编译，但首次运行成本较高。

我们首批面向 MediaTek 和 Qualcomm 的生产就绪集成已上线。技术深度解析显示，NPU 性能领先业界，可实现 比 CPU 快 100 倍、比 GPU 快 10 倍：

视频演示占位已省略。

我们将继续扩展 LiteRT 对更多硬件的 NPU 支持——敬请关注后续公告！

Source: …

跨平台卓越的 GenAI 支持

开源模型提供了灵活性，但部署它们可能会有很高的摩擦。LiteRT 提供了一套集成堆栈，以简化此工作流：

LLM CUJ

LiteRT Torch Generative API – 用于编写和将 PyTorch Transformer 模型转换为 LiteRT‑LM/LiteRT 格式的 Python 模块。
LiteRT‑LM – 基于 LiteRT 构建的编排层，用于管理 LLM 特有的复杂性；为 Gemini Nano 在 Google 产品（Chrome、Pixel Watch）上的部署提供动力。
LiteRT Converter & Runtime – 核心引擎，负责高效的模型转换、运行时执行以及在 CPU、GPU 和 NPU 上的优化。

基准示例

我们在 Samsung Galaxy S25 Ultra 上对 Gemma 3 1B 进行了基准测试，比较了 LiteRT 与 Llama.cpp。在预填充（prefill）和解码（decode）阶段，LiteRT 在 CPU 和 GPU 上均优于 Llama.cpp，且其 NPU 加速在预填充阶段相较 GPU 额外提升了 3×。

Gemma benchmark

想深入了解这些结果背后的工程实现，请阅读关于 LiteRT 优化内部机制的文章。

LiteRT 已发布了不断增长的预转换开源权重模型集合，包括：

Gemma 系列 – Gemma 3（270 M、1 B）、Gemma 3n、EmbeddingGemma、FunctionGemma
Qwen、Phi、FastVLM 等更多模型

这些模型可在 LiteRT Hugging Face Community 上获取，并可通过 Android 与 iOS 上的 Google AI Edge Gallery 应用进行探索。

更多详情，请参阅 LiteRT GenAI 文档。

广泛的机器学习框架支持

ML framework

LiteRT 使得从业界最流行的框架无缝模型转换成为可能：

PyTorch – 使用 LiteRT Torch library 将 PyTorch 模型直接转换为 .tflite。
TensorFlow & JAX – 继续享受 TensorFlow 的最佳支持，并通过 jax2tf 桥梁转换 JAX 模型。

通过整合这些路径，LiteRT 加速了从研究到生产的过程，无论您偏好的开发环境如何。请使用 LiteRT Torch Colab 入门，或在此 deep dive 中探索技术细节。

您可以信赖的可靠性和兼容性

Reliability

LiteRT 基于成熟的 .tflite 模型格式 构建，确保现有模型在 Android、iOS、macOS、Linux、Windows、Web 和物联网平台上保持可移植性和兼容性。

支持两种执行路径：

Interpreter API – 为现有生产模型提供坚如磐石的稳定性。
CompiledModel API – 现代接口，释放完整的 GPU 和 NPU 加速，满足下一代 AI 工作负载。请参阅文档了解为何选择 CompiledModel API。

接下来怎么做

准备好构建设备端 AI 的未来了吗？使用以下资源开始吧：

浏览 LiteRT 文档获取完整指南。
访问 LiteRT GitHub 和 LiteRT 示例仓库获取代码示例。
浏览 LiteRT Hugging Face 社区获取即用的开源模型，并在 Android 或 iOS 上尝试 Google AI Edge Gallery 应用。

通过在我们的 GitHub 频道提交 issue 来提供反馈或请求功能。我们迫不及待想看到你用 LiteRT 构建的作品！

致谢

感谢团队成员和合作者，他们的贡献使本次发布成为可能：Advait Jain, Andrew Zhang, Andrei Kulik, Akshat Sharma, Arian Arfaian, Byungchul Kim, Changming Sun, Chunlei Niu, Chun‑nien Chan, Cormac Brick, David Massoud, Dillon Sharlet, Fengwu Yao, Gerardo Carranza, Jingjiang Li, Jing Jin, Grant Jensen, Jae Yoo, Juhyun Lee, Jun Jiang, Kris Tonthat, Lin Chen, Lu Wang, Luke Boyer, Marissa Ikonomidis, Matt Kreileder, Matthias Grundmann, Majid Dadashi, Marko Ristić, Matthew Soulanille, Na Li, Ping Yu, Quentin Khan, Raman Sarokin, Ram Iyengar, Rishika Sinha, Sachin Kotwani, Shuangfeng Li, Steven Toribio, Suleman Shahid, Teng‑Hui Zhu, Terry (Woncheol) Heo, Vitalii Dziuba, Volodymyr Kysenko, Weiyi Wang, Yu‑Hui Chen, Pradeep Kuppala, and the gTech team.

LiteRT：端侧 AI 的通用框架

高性能跨平台 GPU 加速

示例：使用 CompiledModel API（C++）进行 GPU 加速

精简的 NPU 集成，实现峰值性能

跨平台卓越的 GenAI 支持

基准示例

广泛的机器学习框架支持

您可以信赖的可靠性和兼容性

接下来怎么做

致谢

相关文章

更快获取公共数据洞察：Data Commons MCP 现已托管于 Google Cloud

为 Google I/O 2026 做好准备

介绍 Developer Knowledge API 和 MCP Server

使用 Gemini 将创意提示转化为交互式 XR 体验