Google 的最新技巧让 Gemma 4 在手机上运行速度提升 3 倍
Source: Android Authority

TL;DR
- Google 推出了名为 “drafters” 的新助手模型,能够显著加速 Gemma 4。
- Drafters 通过预测主模型的提示片段来工作,使主模型能够在更大的批次中处理这些片段。
- 这使得模型能够更高效地利用内存和计算资源。
Google 最近发布的 Gemma 4 边缘 AI 模型专为在消费者本地硬件上运行而设计。虽然在隐私方面具有优势,但本地模型容易占用大量资源并导致响应变慢,从而失去实用性。因此,Google 现在提供了一种潜在的解决方案,声称可以将 Gemma 4 的速度提升至最高三倍。
Google 最近 发布 了用于 Gemma 4 的多令牌预测(Multi‑Token Prediction,MTP)drafters。这些 drafters 本质上是较小的辅助模型,通过 “预测” 用户请求的一部分来帮助主模型。这些较小的模型还会与主模型并行工作,以更有效地管理计算资源。
MTP 如何提升 Gemma 4?
该过程使用一种称为 “Speculative Decoding” 的技术,drafter 模型在主 Gemma 模型读取提示之前就预测出接下来的词语。当 drafter 前进到下一个词序列时,主模型同步验证预测的词语集合。
- 如果模型接受草稿版本,则继续验证下一组词语。
- 如果不一致,则替换错误的词或片段。
虽然额外的工作听起来有悖直觉,但实际上并非如此。MTP 能够奏效的简化解释如下:
- 处理速度不仅取决于处理硬件(通常是 GPU 核心),更取决于内存带宽(VRAM)。
- 每次新请求都需要引用模型,通过将多个词合并为一个块,模型只需被引用一次,而不是多次,从而将负载从内存转移到处理单元。
除此之外,Google 还表示正在针对不同硬件(如 Apple Silicon 或流行的 Nvidia A100)优化不同权重的 Gemma 4 模型。
Gemma 4 的 MTP drafters 与主模型一起,可通过 Hugging Face、Kaggle 平台,或使用 Ollama 等工具,亦可通过 Google 自己的 AI Edge Gallery 在 Android 或 iOS 上访问。