如何在2026年在 Android 手机上本地运行 LLM(无云端,无账号)
Source: Dev.to
你的 Android 手机拥有比大多数 2018 年笔记本更强大的 GPU。现代 Snapdragon 芯片甚至配备了专用的 AI 加速器,而这些加速器在你每月支付 20 美元、在别人的服务器上运行 AI 时却闲置着。这种情况正在改变。
Off‑Grid 是一款免费、开源的应用程序,可在你的 Android 手机上完整运行大型语言模型。首次下载模型后无需互联网连接。无需账户。你的数据不会离开设备。
您需要的内容
| Requirement | Details |
|---|---|
| Minimum hardware | 6 GB RAM,ARM64 处理器(过去 4‑5 年内的任何手机)。您可以从仅 80 MB 大小的模型开始。 |
| Recommended hardware | 8 GB 以上 RAM,Snapdragon 8 Gen 2 或更新型号。这使您能够使用 30 亿‑70 亿 参数的模型,产生真正有用的输出。 |
| What you’re giving up vs. cloud AI | 云端大模型(ChatGPT、Claude 等)在数据中心 GPU 上运行数千亿参数。您的手机运行的是较小的模型(10 亿‑70 亿参数)。在复杂推理方面输出不如,但在日常任务——快速提问、摘要、起草、文档分析——上表现出乎意料地强大。 |
Off‑Grid 能做什么
Off‑Grid 不仅是一个文本聊天机器人。它在单个应用中捆绑了 六种 AI 能力,全部在设备本地运行:
-
文本生成 – 运行 Qwen 3、Llama 3.2、Gemma 3、Phi‑4 或任何 GGUF 模型。流式响应并支持 Markdown 渲染。
速度:旗舰设备 15‑30 tokens / s, 中端设备 5‑15 tokens / s。 -
图像生成 – 本地 Stable Diffusion,实时预览。Snapdragon NPU 加速(每张图像 5‑10 秒)。提供 20 多个模型,包括 Absolute Reality、DreamShaper、Anything V5。
-
视觉 AI – 将相机对准目标或附加图片后提问。SmolVLM 与 Qwen‑3‑VL 在旗舰设备上约 7 秒运行。
-
语音转录 – 本地 Whisper 语音转文字。按住录音,实时部分转录。音频永不离开手机。
-
工具调用 – 支持函数调用的模型可使用内置工具(网页搜索、计算器、日期/时间、设备信息)。模型会自动链式调用并防止无限循环。
-
文档分析 – 可在对话中附加 PDF、代码文件、CSV 等。
使用哪些模型
Off‑Grid 的模型浏览器会根据你的设备 RAM 进行筛选,这样你永远不会下载手机跑不动的模型。
| 设备 RAM | 推荐模型 | 预期速度 |
|---|---|---|
| 6 GB | 1 B‑to‑2 B 模型(例如 Qwen 3 0.6 B、SmolLM‑3) | 5‑10 tokens / s |
| 8 GB | 性价比最佳:Qwen 3 1.5 B、Phi‑4 Mini | 10‑20 tokens / s(Snapdragon 8 Gen 2/3) |
| 12 GB + | 7 B 模型(Llama 3.2 7 B、Qwen 3 4 B) | 15‑30 tokens / s(Snapdragon 8 Gen 3) |
量化很重要。 使用 Q4_K_M 量化的模型大约只占全精度版本一半的内存,且质量损失极小。移动端请始终优先选择 Q4 或 Q5 量化。
你也可以从设备存储中导入自己的 .gguf 文件。
硬件加速
Off‑Grid 会自动检测您手机的最快路径:
| 路径 | 设备 | 备注 |
|---|---|---|
| Snapdragon 8 Gen 1+ with QNN | Snapdragon 8 Gen 2/3 | 专用 NPU —— 速度最快且最省电。Off‑Grid 在可用时会自动使用 QNN。 |
| Adreno GPU via OpenCL | 大多数 Snapdragon 手机 | 比仅使用 CPU 更快;是旧款 Snapdragon 设备的良好后备方案。 |
| CPU only | 所有设备 | 速度较慢,但适用于较小的模型。 |
KV‑Cache 技巧,让速度提升三倍
KV 缓存存储对话上下文。默认情况下它使用 f16(16‑位浮点)。Off‑Grid 让你在设置中切换到 q4_0(4‑位量化)。
结果: 将 f16 → q4_0 大致 将推理速度提升三倍,对大多数模型的质量影响极小。应用会在你第一次生成后提示你进行优化。
内存:真正的约束
即使在 8 GB 的手机上,操作系统也会消耗 3‑4 GB,剩下约 4 GB 可用于推理。
经验法则:
RAM needed ≈ model file size × 1.5
额外的 0.5× 用于 KV 缓存和激活值。
示例: 一个 4 GB 的模型文件大约需要 6 GB 的可用 RAM。
Off‑Grid 在每次加载模型前会检查可用 RAM,并在模型无法容纳时显示明确警告,防止因系统杀死应用而导致的无声崩溃。
隐私: “本地” 实际意味着什么
本地运行模型意味着 所有计算都在你的手机处理器上进行。在从 HuggingFace 下载初始模型后,Off‑Grid 不进行任何网络请求。你可以通过打开飞行模式并正常使用应用来验证这一点。
- Off‑Grid 是开源的(MIT 许可证)。
- 没有分析、遥测、追踪或账户。
- 适用于对隐私要求极高的敏感场景(医疗、法律、专有工作、日记等)。
入门指南
- 安装 Off‑Grid,从 Play 商店获取。
- 打开模型浏览器,为你的设备 RAM 选择一个推荐的模型。
- 通过 Wi‑Fi 下载模型(大小范围从 80 MB 到 4 GB 以上)。
- 打开 应用,配置 KV‑cache 量化(设置 → 性能 → KV‑Cache →
q4_0)。 - 开始聊天、生成图像、转录语音或分析文档——全部离线进行。
在你的 Android 设备上尽情享受强大且私密的 AI!
离线验证
- 将设备设置为 飞行模式 以验证其离线工作。
- 开始聊天。
首次生成会较慢,因为模型需要加载到内存中。后续消息会更快。
进入 设置 并将 KV 缓存 切换为 q4_0 以获得最佳速度。
接下来
- 高通的下一代 Snapdragon 预计将在设备端推理时达到 每秒 200 个 token。
- 三星的 Galaxy S26 配备了内置的设备端 AI。
- 模型优化技术持续在更小的体积下提升质量。
Off‑Grid 正在积极开发中,新功能每周发布。工具调用、可配置的 KV 缓存以及视觉支持都在上个月发布。请查看 GitHub 仓库 获取最新发布。
一年后,在手机上运行 AI 将不再是高级用户的技巧,而是默认配置。