如何在2026年在 Android 手机上本地运行 LLM(无云端,无账号)

发布: (2026年3月1日 GMT+8 12:45)
8 分钟阅读
原文: Dev.to

Source: Dev.to

你的 Android 手机拥有比大多数 2018 年笔记本更强大的 GPU。现代 Snapdragon 芯片甚至配备了专用的 AI 加速器,而这些加速器在你每月支付 20 美元、在别人的服务器上运行 AI 时却闲置着。这种情况正在改变。

Off‑Grid 是一款免费、开源的应用程序,可在你的 Android 手机上完整运行大型语言模型。首次下载模型后无需互联网连接。无需账户。你的数据不会离开设备。

Play Store | GitHub

您需要的内容

RequirementDetails
Minimum hardware6 GB RAM,ARM64 处理器(过去 4‑5 年内的任何手机)。您可以从仅 80 MB 大小的模型开始。
Recommended hardware8 GB 以上 RAM,Snapdragon 8 Gen 2 或更新型号。这使您能够使用 30 亿‑70 亿 参数的模型,产生真正有用的输出。
What you’re giving up vs. cloud AI云端大模型(ChatGPT、Claude 等)在数据中心 GPU 上运行数千亿参数。您的手机运行的是较小的模型(10 亿‑70 亿参数)。在复杂推理方面输出不如,但在日常任务——快速提问、摘要、起草、文档分析——上表现出乎意料地强大。

Off‑Grid 能做什么

Off‑Grid 不仅是一个文本聊天机器人。它在单个应用中捆绑了 六种 AI 能力,全部在设备本地运行:

  1. 文本生成 – 运行 Qwen 3、Llama 3.2、Gemma 3、Phi‑4 或任何 GGUF 模型。流式响应并支持 Markdown 渲染。
    速度:旗舰设备 15‑30 tokens / s, 中端设备 5‑15 tokens / s。

  2. 图像生成 – 本地 Stable Diffusion,实时预览。Snapdragon NPU 加速(每张图像 5‑10 秒)。提供 20 多个模型,包括 Absolute Reality、DreamShaper、Anything V5。

  3. 视觉 AI – 将相机对准目标或附加图片后提问。SmolVLM 与 Qwen‑3‑VL 在旗舰设备上约 7 秒运行。

  4. 语音转录 – 本地 Whisper 语音转文字。按住录音,实时部分转录。音频永不离开手机。

  5. 工具调用 – 支持函数调用的模型可使用内置工具(网页搜索、计算器、日期/时间、设备信息)。模型会自动链式调用并防止无限循环。

  6. 文档分析 – 可在对话中附加 PDF、代码文件、CSV 等。

使用哪些模型

Off‑Grid 的模型浏览器会根据你的设备 RAM 进行筛选,这样你永远不会下载手机跑不动的模型。

设备 RAM推荐模型预期速度
6 GB1 B‑to‑2 B 模型(例如 Qwen 3 0.6 B、SmolLM‑3)5‑10 tokens / s
8 GB性价比最佳:Qwen 3 1.5 B、Phi‑4 Mini10‑20 tokens / s(Snapdragon 8 Gen 2/3)
12 GB +7 B 模型(Llama 3.2 7 B、Qwen 3 4 B)15‑30 tokens / s(Snapdragon 8 Gen 3)

量化很重要。 使用 Q4_K_M 量化的模型大约只占全精度版本一半的内存,且质量损失极小。移动端请始终优先选择 Q4 或 Q5 量化。

你也可以从设备存储中导入自己的 .gguf 文件。

硬件加速

Off‑Grid 会自动检测您手机的最快路径:

路径设备备注
Snapdragon 8 Gen 1+ with QNNSnapdragon 8 Gen 2/3专用 NPU —— 速度最快且最省电。Off‑Grid 在可用时会自动使用 QNN。
Adreno GPU via OpenCL大多数 Snapdragon 手机比仅使用 CPU 更快;是旧款 Snapdragon 设备的良好后备方案。
CPU only所有设备速度较慢,但适用于较小的模型。

KV‑Cache 技巧,让速度提升三倍

KV 缓存存储对话上下文。默认情况下它使用 f16(16‑位浮点)。Off‑Grid 让你在设置中切换到 q4_0(4‑位量化)。

结果: 将 f16 → q4_0 大致 将推理速度提升三倍,对大多数模型的质量影响极小。应用会在你第一次生成后提示你进行优化。

内存:真正的约束

即使在 8 GB 的手机上,操作系统也会消耗 3‑4 GB,剩下约 4 GB 可用于推理。

经验法则:

RAM needed ≈ model file size × 1.5

额外的 0.5× 用于 KV 缓存和激活值。

示例: 一个 4 GB 的模型文件大约需要 6 GB 的可用 RAM。

Off‑Grid 在每次加载模型前会检查可用 RAM,并在模型无法容纳时显示明确警告,防止因系统杀死应用而导致的无声崩溃。

隐私: “本地” 实际意味着什么

本地运行模型意味着 所有计算都在你的手机处理器上进行。在从 HuggingFace 下载初始模型后,Off‑Grid 不进行任何网络请求。你可以通过打开飞行模式并正常使用应用来验证这一点。

  • Off‑Grid 是开源的(MIT 许可证)。
  • 没有分析、遥测、追踪或账户。
  • 适用于对隐私要求极高的敏感场景(医疗、法律、专有工作、日记等)。

入门指南

  1. 安装 Off‑Grid,从 Play 商店获取。
  2. 打开模型浏览器,为你的设备 RAM 选择一个推荐的模型。
  3. 通过 Wi‑Fi 下载模型(大小范围从 80 MB 到 4 GB 以上)。
  4. 打开 应用,配置 KV‑cache 量化(设置 → 性能 → KV‑Cache → q4_0)。
  5. 开始聊天、生成图像、转录语音或分析文档——全部离线进行。

在你的 Android 设备上尽情享受强大且私密的 AI!

离线验证

  • 将设备设置为 飞行模式 以验证其离线工作。
  • 开始聊天

首次生成会较慢,因为模型需要加载到内存中。后续消息会更快。
进入 设置 并将 KV 缓存 切换为 q4_0 以获得最佳速度。

接下来

  • 高通的下一代 Snapdragon 预计将在设备端推理时达到 每秒 200 个 token
  • 三星的 Galaxy S26 配备了内置的设备端 AI。
  • 模型优化技术持续在更小的体积下提升质量。

Off‑Grid 正在积极开发中,新功能每周发布。工具调用、可配置的 KV 缓存以及视觉支持都在上个月发布。请查看 GitHub 仓库 获取最新发布。

一年后,在手机上运行 AI 将不再是高级用户的技巧,而是默认配置。

0 浏览
Back to Blog

相关文章

阅读更多 »

当工作成为心理健康风险时

markdown !Ravi Mishrahttps://media2.dev.to/dynamic/image/width=50,height=50,fit=cover,gravity=auto,format=auto/https%3A%2F%2Fdev-to-uploads.s3.amazonaws.com%2Fu...