为什么我把80%的AI工作负载路由到免费本地模型(只为剩下的20%付费)
Source: Dev.to
Anthropic 刚刚推出 Claude Cowork — 一个能够自主规划、执行并迭代任务的 AI 代理
市场因其对 SaaS 的影响在一周内损失了 $285 billion。
我观看了发布会并想道:“I’ve been doing this from my laptop.”
并不是因为我比 Anthropic 更聪明,而是因为经济因素迫使采用了更好的架构。
没有人谈论的问题
云端 AI 的计费方式是 per‑token。你的 AI 工作流越有价值,成本就越高。
- 运行一个 搜索、摘要、评分和综合 的分析流水线?
那是 四次模型调用。 - 在 50 条目 上执行?
那是 200 次调用。
按云端费率计算,单次研究会话可能消耗 $5–15。
大多数人要么接受成本,要么避免构建任何雄心勃勃的项目。还有 第三种选择。
双模型编排:模式
思路很简单:并非 AI 流程的每个阶段都需要最强大的模型。
| 阶段 | 发生的事情 | 模型 | 成本 |
|---|---|---|---|
| 1 – 收集与扫描 | 从 API 拉取数据,按相关性过滤,进行基础模式匹配。 | 本地 8B 参数模型 | $0 |
| 2 – 打分与排序 | 应用标准,给结果加权,排序。 | 本地 | $0 |
| 3 – 去重与验证 | 检查重复项,验证数据质量,交叉引用。 | 本地 | $0 |
| 4 – 合成与判断 | 生成洞见,进行战略分析,提供细致建议。 | 前沿模型(Claude、GPT‑4 等) | 付费 token |
**结果:**约 80 % 的计算在免费本地模型上完成。只有约 20 % 需要前沿智能的部分才会产生云端费用。
我的配置(实际数据)
- 硬件: 消费级游戏笔记本 – RTX 5080(16 GB 显存),32 GB RAM。不是服务器,也不是数据中心。
- 本地模型: 在 Docker 中通过 Ollama 运行的 Qwen3 8B,GPU 加速。能够以约 30 tokens/秒的速度处理第 1‑3 阶段。
- 云模型: 仅用于合成/判断阶段的 Claude API。
- 基础设施: 使用 PostgreSQL 进行持久化,Redis 用于缓存/去重,全部运行在绑定到
localhost的 Docker 容器中。
典型研究流水线(50 条目)的成本比较
| 方法 | 每次运行成本 |
|---|---|
| 全部使用云端(Claude/GPT‑4) | $8 – $15 |
| 全部本地(8B 模型完成所有任务) | $0(合成质量下降) |
| 双模型(本地扫描 + 云端合成) | $0.15 – $0.40 |
这实现了 95 – 97 % 的成本降低,同时在关键环节保持前沿质量的输出。
我实际用它构建的东西
- 一个市场扫描器,监控 Reddit、Hacker News、GitHub 和 Dev.to,寻找我细分领域的机会。它在本地扫描数百篇帖子,打分、去重(对比 Redis 缓存),仅将最有价值的候选项发送给 Claude 进行策略分析。首次运行就发现了 26 条可操作的机会。总云费用:微不足道。
- 一个行业研究流水线,执行四阶段分析:扫描 → 提取 → 分析 → 合成。前三个阶段全部在本地 GPU 上运行,只有最后的合成阶段调用云 API。
- 一个 SaaS 产品,使用该基础设施构建、测试并部署——在 PaaS 平台上上线,产品列在支付处理器上。从概念到上线仅用了几天,而不是几个月。
注意事项(因为没有什么是免费的)
- 本地模型有怪癖。 Qwen3 8B 在某些 API 接口会生成过多的“思考” token。请使用
/api/chat而不是/api/generate,并构造提示词以抑制 chain‑of‑thought。这让我花了数小时调试。 - GPU 显存是有限的。 16 GB VRAM 能轻松运行 8B 模型。更大的模型需要量化折衷。了解你的硬件上限。
- Windows 上的 Docker 网络令人头疼。 某些机器上
localhost会解析为 IPv6,但 Docker 只绑定 IPv4。请显式使用127.0.0.1。这件小事如果不注意,会浪费你整个下午。 - 编排层是你的责任。 云 API 只提供一个端点。双模型意味着 你 需要编写路由逻辑——哪些阶段走本地,哪些走云端,如何处理故障。这不是即插即用的。
为什么现在很重要
Claude Cowork、Devin 以及类似的 AI 代理都运行在 仅云端 架构上。它们确实令人印象深刻——但每个 token 都要经过别人的服务器,且费用由别人决定。
本地优先的混合方式为您提供:
- 成本控制 – 硬件一次性投入,运行时几乎为零的边际成本
- 隐私 – 您的数据在管道的 80 % 过程中永不离开本机
- 速度 – 本地阶段无需网络延迟
- 独立性 – 即使 API 宕机或价格上涨,您的工具仍能正常工作
实现这一目标的硬件成本不足 6 个月 的 Max‑tier AI 订阅费用。之后,它将永久归您所有。
更大的想法
我已经不再把我的设置看作是“本地 AI 安装”,而是把它视为一个 工具工厂。编排模式是可复用的。每个新工具都继承双模型架构——低成本扫描,高智商合成。工厂本身运行几乎不花钱;它生产的工具几乎也不需要费用来操作。
当 Anthropic 宣布 Cowork 时,市场惊慌失措,因为 AI 代理现在可以自主完成知识工作。但真正的颠覆并不是代理本身——而是经济模型。问题不再是 “AI 能做这项工作吗?”,而是 “谁来付费?”。
“对于计算资源,花费多少?”
我选择用一台 $2,000 笔记本电脑 和一些 Docker 容器来回答这个问题。
在消费级硬件上运行本地 AI 基础设施。我撰写关于实用 AI 架构的内容——模式、陷阱以及真实成本。系列后续内容敬请期待。
