Google 的最新技巧让 Gemma 4 在手机上运行速度提升 3 倍

发布: (2026年5月6日 GMT+8 17:10)
3 分钟阅读

Source: Android Authority

TL;DR

  • Google 推出了名为 “drafters” 的新助手模型,能够显著加速 Gemma 4。
  • Drafters 通过预测主模型的提示片段来工作,使主模型能够在更大的批次中处理这些片段。
  • 这使得模型能够更高效地利用内存和计算资源。

Google 最近发布的 Gemma 4 边缘 AI 模型专为在消费者本地硬件上运行而设计。虽然在隐私方面具有优势,但本地模型容易占用大量资源并导致响应变慢,从而失去实用性。因此,Google 现在提供了一种潜在的解决方案,声称可以将 Gemma 4 的速度提升至最高三倍。

Google 最近 发布 了用于 Gemma 4 的多令牌预测(Multi‑Token Prediction,MTP)drafters。这些 drafters 本质上是较小的辅助模型,通过 “预测” 用户请求的一部分来帮助主模型。这些较小的模型还会与主模型并行工作,以更有效地管理计算资源。

MTP 如何提升 Gemma 4?

该过程使用一种称为 “Speculative Decoding” 的技术,drafter 模型在主 Gemma 模型读取提示之前就预测出接下来的词语。当 drafter 前进到下一个词序列时,主模型同步验证预测的词语集合。

  • 如果模型接受草稿版本,则继续验证下一组词语。
  • 如果不一致,则替换错误的词或片段。

虽然额外的工作听起来有悖直觉,但实际上并非如此。MTP 能够奏效的简化解释如下:

  • 处理速度不仅取决于处理硬件(通常是 GPU 核心),更取决于内存带宽(VRAM)。
  • 每次新请求都需要引用模型,通过将多个词合并为一个块,模型只需被引用一次,而不是多次,从而将负载从内存转移到处理单元。

除此之外,Google 还表示正在针对不同硬件(如 Apple Silicon 或流行的 Nvidia A100)优化不同权重的 Gemma 4 模型。

Gemma 4 的 MTP drafters 与主模型一起,可通过 Hugging FaceKaggle 平台,或使用 Ollama 等工具,亦可通过 Google 自己的 AI Edge Gallery 在 Android 或 iOS 上访问。

0 浏览
Back to Blog

相关文章

阅读更多 »

Google 关闭 Project Mariner

Google 已经终止了 Project Mariner,这是一项旨在在网络上为您执行任务的实验性功能,正如 Wired 的 Maxwell 早前报道的那样。