Google 的最新技巧让 Gemma 4 在手机上运行速度提升 3 倍

发布: 5天前 (2026年5月6日 GMT+8 17:10)

3 分钟阅读

Source: Android Authority

TL;DR

Google 最近发布的 Gemma 4 边缘 AI 模型专为在消费者本地硬件上运行而设计。虽然在隐私方面具有优势，但本地模型容易占用大量资源并导致响应变慢，从而失去实用性。因此，Google 现在提供了一种潜在的解决方案，声称可以将 Gemma 4 的速度提升至最高三倍。

Google 最近发布了用于 Gemma 4 的多令牌预测（Multi‑Token Prediction，MTP）drafters。这些 drafters 本质上是较小的辅助模型，通过 “预测” 用户请求的一部分来帮助主模型。这些较小的模型还会与主模型并行工作，以更有效地管理计算资源。

该过程使用一种称为 “Speculative Decoding” 的技术，drafter 模型在主 Gemma 模型读取提示之前就预测出接下来的词语。当 drafter 前进到下一个词序列时，主模型同步验证预测的词语集合。

虽然额外的工作听起来有悖直觉，但实际上并非如此。MTP 能够奏效的简化解释如下：

除此之外，Google 还表示正在针对不同硬件（如 Apple Silicon 或流行的 Nvidia A100）优化不同权重的 Gemma 4 模型。

Gemma 4 的 MTP drafters 与主模型一起，可通过 Hugging Face、Kaggle 平台，或使用 Ollama 等工具，亦可通过 Google 自己的 AI Edge Gallery 在 Android 或 iOS 上访问。