如何在2026年在 Android 手机上本地运行 LLM（无云端，无账号）

发布: 2天前 (2026年3月1日 GMT+8 12:45)

8 分钟阅读

Source: Dev.to

你的 Android 手机拥有比大多数 2018 年笔记本更强大的 GPU。现代 Snapdragon 芯片甚至配备了专用的 AI 加速器，而这些加速器在你每月支付 20 美元、在别人的服务器上运行 AI 时却闲置着。这种情况正在改变。

Off‑Grid 是一款免费、开源的应用程序，可在你的 Android 手机上完整运行大型语言模型。首次下载模型后无需互联网连接。无需账户。你的数据不会离开设备。

您需要的内容

Requirement	Details
Minimum hardware	6 GB RAM，ARM64 处理器（过去 4‑5 年内的任何手机）。您可以从仅 80 MB 大小的模型开始。
Recommended hardware	8 GB 以上 RAM，Snapdragon 8 Gen 2 或更新型号。这使您能够使用 30 亿‑70 亿参数的模型，产生真正有用的输出。
What you’re giving up vs. cloud AI	云端大模型（ChatGPT、Claude 等）在数据中心 GPU 上运行数千亿参数。您的手机运行的是较小的模型（10 亿‑70 亿参数）。在复杂推理方面输出不如，但在日常任务——快速提问、摘要、起草、文档分析——上表现出乎意料地强大。

Off‑Grid 能做什么

Off‑Grid 不仅是一个文本聊天机器人。它在单个应用中捆绑了 六种 AI 能力，全部在设备本地运行：

文本生成 – 运行 Qwen 3、Llama 3.2、Gemma 3、Phi‑4 或任何 GGUF 模型。流式响应并支持 Markdown 渲染。
速度：旗舰设备 15‑30 tokens / s，中端设备 5‑15 tokens / s。
图像生成 – 本地 Stable Diffusion，实时预览。Snapdragon NPU 加速（每张图像 5‑10 秒）。提供 20 多个模型，包括 Absolute Reality、DreamShaper、Anything V5。
视觉 AI – 将相机对准目标或附加图片后提问。SmolVLM 与 Qwen‑3‑VL 在旗舰设备上约 7 秒运行。
语音转录 – 本地 Whisper 语音转文字。按住录音，实时部分转录。音频永不离开手机。
工具调用 – 支持函数调用的模型可使用内置工具（网页搜索、计算器、日期/时间、设备信息）。模型会自动链式调用并防止无限循环。
文档分析 – 可在对话中附加 PDF、代码文件、CSV 等。

使用哪些模型

Off‑Grid 的模型浏览器会根据你的设备 RAM 进行筛选，这样你永远不会下载手机跑不动的模型。

设备 RAM	推荐模型	预期速度
6 GB	1 B‑to‑2 B 模型（例如 Qwen 3 0.6 B、SmolLM‑3）	5‑10 tokens / s
8 GB	性价比最佳：Qwen 3 1.5 B、Phi‑4 Mini	10‑20 tokens / s（Snapdragon 8 Gen 2/3）
12 GB +	7 B 模型（Llama 3.2 7 B、Qwen 3 4 B）	15‑30 tokens / s（Snapdragon 8 Gen 3）

量化很重要。 使用 Q4_K_M 量化的模型大约只占全精度版本一半的内存，且质量损失极小。移动端请始终优先选择 Q4 或 Q5 量化。

你也可以从设备存储中导入自己的 .gguf 文件。

硬件加速

Off‑Grid 会自动检测您手机的最快路径：

路径	设备	备注
Snapdragon 8 Gen 1+ with QNN	Snapdragon 8 Gen 2/3	专用 NPU —— 速度最快且最省电。Off‑Grid 在可用时会自动使用 QNN。
Adreno GPU via OpenCL	大多数 Snapdragon 手机	比仅使用 CPU 更快；是旧款 Snapdragon 设备的良好后备方案。
CPU only	所有设备	速度较慢，但适用于较小的模型。

KV‑Cache 技巧，让速度提升三倍

KV 缓存存储对话上下文。默认情况下它使用 f16（16‑位浮点）。Off‑Grid 让你在设置中切换到 q4_0（4‑位量化）。

结果： 将 f16 → q4_0 大致 将推理速度提升三倍，对大多数模型的质量影响极小。应用会在你第一次生成后提示你进行优化。

内存：真正的约束

即使在 8 GB 的手机上，操作系统也会消耗 3‑4 GB，剩下约 4 GB 可用于推理。

经验法则：

RAM needed ≈ model file size × 1.5

额外的 0.5× 用于 KV 缓存和激活值。

示例： 一个 4 GB 的模型文件大约需要 6 GB 的可用 RAM。

Off‑Grid 在每次加载模型前会检查可用 RAM，并在模型无法容纳时显示明确警告，防止因系统杀死应用而导致的无声崩溃。

隐私： “本地” 实际意味着什么

本地运行模型意味着 所有计算都在你的手机处理器上进行。在从 HuggingFace 下载初始模型后，Off‑Grid 不进行任何网络请求。你可以通过打开飞行模式并正常使用应用来验证这一点。

Off‑Grid 是开源的（MIT 许可证）。
没有分析、遥测、追踪或账户。
适用于对隐私要求极高的敏感场景（医疗、法律、专有工作、日记等）。

入门指南

安装 Off‑Grid，从 Play 商店获取。
打开模型浏览器，为你的设备 RAM 选择一个推荐的模型。
通过 Wi‑Fi 下载模型（大小范围从 80 MB 到 4 GB 以上）。
打开应用，配置 KV‑cache 量化（设置 → 性能 → KV‑Cache → q4_0）。
开始聊天、生成图像、转录语音或分析文档——全部离线进行。

在你的 Android 设备上尽情享受强大且私密的 AI！

离线验证

将设备设置为 飞行模式 以验证其离线工作。
开始聊天。

首次生成会较慢，因为模型需要加载到内存中。后续消息会更快。
进入设置并将 KV 缓存 切换为 q4_0 以获得最佳速度。

接下来

高通的下一代 Snapdragon 预计将在设备端推理时达到 每秒 200 个 token。
三星的 Galaxy S26 配备了内置的设备端 AI。
模型优化技术持续在更小的体积下提升质量。

Off‑Grid 正在积极开发中，新功能每周发布。工具调用、可配置的 KV 缓存以及视觉支持都在上个月发布。请查看 GitHub 仓库获取最新发布。

一年后，在手机上运行 AI 将不再是高级用户的技巧，而是默认配置。

如何在2026年在 Android 手机上本地运行 LLM（无云端，无账号）

您需要的内容

Off‑Grid 能做什么

使用哪些模型

硬件加速

KV‑Cache 技巧，让速度提升三倍

内存：真正的约束

隐私： “本地” 实际意味着什么

入门指南

离线验证

接下来

相关文章

当工作成为心理健康风险时

最难的部分不是隐形——而是被压平成一维

近视、外斜视与代码：为近视专业人士开发视觉训练工具

你的下一个数字产品有 89% 的几率恰好赚到 $0