Google Gemma 4 在 iPhone 上原生运行，支持完整离线 AI 推理

发布: 3周前 (2026年4月15日 GMT+8 13:19)

3 分钟阅读

Source: Hacker News

Overview

在设备 AI 多年来一直是热点话题，但谷歌的最新举动让人难以忽视。Gemma 4，谷歌的开源模型系列，现在可以直接在 iPhone 上运行，支持完整的本地推理和离线能力。这表明边缘 AI 部署已经不再是未来的优先事项——它正在当下发生。

早期基准测试将 31 B 参数的 Gemma 4 与 Qwen 3.5 的 27 B 模型并列。两者相对接近，Gemma 多出约 4 B 参数。两款模型各有取舍，且没有哪一款在所有任务上都占绝对优势。

更值得关注的是体积更小的变体——E2B 和 E4B。这些模型显然是为移动端部署而设计，优先考虑效率而非原始算力。谷歌自家的应用会引导用户选择 E2B 变体，因为它更快、更轻，且更适合真实的设备环境——在内存和散热限制下表现更佳。

Gemma 4 通过 iPhone 的 GPU 进行推理。实际使用中，响应时间非常低，说明消费级硬件能够在不出现明显性能下降的情况下承担此类工作负载。这种低延迟、离线的能力为本地 AI 部署的商业可行性提供了有力论据。

离线能力改变了企业使用场景的计算方式，例如：

iPhone 上的 Gemma 4 不仅是技术概念验证，更是明确的信号，表明设备端 AI 时代已经到来。对谷歌而言，Gemma 系列已经彻底走出瓶颈。