为什么我把80%的AI工作负载路由到免费本地模型（只为剩下的20%付费）

发布: 2个月前 (2026年2月22日 GMT+8 12:11)

8 分钟阅读

原文: Dev.to

Source: Dev.to

Anthropic 刚刚推出 Claude Cowork — 一个能够自主规划、执行并迭代任务的 AI 代理

市场因其对 SaaS 的影响在一周内损失了 $285 billion。

我观看了发布会并想道：“I’ve been doing this from my laptop.”
并不是因为我比 Anthropic 更聪明，而是因为经济因素迫使采用了更好的架构。

没有人谈论的问题

云端 AI 的计费方式是 per‑token。你的 AI 工作流越有价值，成本就越高。

运行一个 搜索、摘要、评分和综合 的分析流水线？
那是 四次模型调用。
在 50 条目 上执行？
那是 200 次调用。

按云端费率计算，单次研究会话可能消耗 $5–15。

大多数人要么接受成本，要么避免构建任何雄心勃勃的项目。还有 第三种选择。

双模型编排：模式

思路很简单：并非 AI 流程的每个阶段都需要最强大的模型。

阶段	发生的事情	模型	成本
1 – 收集与扫描	从 API 拉取数据，按相关性过滤，进行基础模式匹配。	本地 8B 参数模型	$0
2 – 打分与排序	应用标准，给结果加权，排序。	本地	$0
3 – 去重与验证	检查重复项，验证数据质量，交叉引用。	本地	$0
4 – 合成与判断	生成洞见，进行战略分析，提供细致建议。	前沿模型（Claude、GPT‑4 等）	付费 token

**结果：**约 80 % 的计算在免费本地模型上完成。只有约 20 % 需要前沿智能的部分才会产生云端费用。

我的配置（实际数据）

硬件: 消费级游戏笔记本 – RTX 5080（16 GB 显存），32 GB RAM。不是服务器，也不是数据中心。
本地模型: 在 Docker 中通过 Ollama 运行的 Qwen3 8B，GPU 加速。能够以约 30 tokens/秒的速度处理第 1‑3 阶段。
云模型: 仅用于合成/判断阶段的 Claude API。
基础设施: 使用 PostgreSQL 进行持久化，Redis 用于缓存/去重，全部运行在绑定到 localhost 的 Docker 容器中。

典型研究流水线（50 条目）的成本比较

方法	每次运行成本
全部使用云端（Claude/GPT‑4）	$8 – $15
全部本地（8B 模型完成所有任务）	$0（合成质量下降）
双模型（本地扫描 + 云端合成）	$0.15 – $0.40

这实现了 95 – 97 % 的成本降低，同时在关键环节保持前沿质量的输出。

我实际用它构建的东西

一个市场扫描器，监控 Reddit、Hacker News、GitHub 和 Dev.to，寻找我细分领域的机会。它在本地扫描数百篇帖子，打分、去重（对比 Redis 缓存），仅将最有价值的候选项发送给 Claude 进行策略分析。首次运行就发现了 26 条可操作的机会。总云费用：微不足道。
一个行业研究流水线，执行四阶段分析：扫描 → 提取 → 分析 → 合成。前三个阶段全部在本地 GPU 上运行，只有最后的合成阶段调用云 API。
一个 SaaS 产品，使用该基础设施构建、测试并部署——在 PaaS 平台上上线，产品列在支付处理器上。从概念到上线仅用了几天，而不是几个月。

注意事项（因为没有什么是免费的）

本地模型有怪癖。 Qwen3 8B 在某些 API 接口会生成过多的“思考” token。请使用 /api/chat 而不是 /api/generate，并构造提示词以抑制 chain‑of‑thought。这让我花了数小时调试。
GPU 显存是有限的。 16 GB VRAM 能轻松运行 8B 模型。更大的模型需要量化折衷。了解你的硬件上限。
Windows 上的 Docker 网络令人头疼。 某些机器上 localhost 会解析为 IPv6，但 Docker 只绑定 IPv4。请显式使用 127.0.0.1。这件小事如果不注意，会浪费你整个下午。
编排层是你的责任。 云 API 只提供一个端点。双模型意味着你需要编写路由逻辑——哪些阶段走本地，哪些走云端，如何处理故障。这不是即插即用的。

为什么现在很重要

Claude Cowork、Devin 以及类似的 AI 代理都运行在 仅云端 架构上。它们确实令人印象深刻——但每个 token 都要经过别人的服务器，且费用由别人决定。

本地优先的混合方式为您提供：

成本控制 – 硬件一次性投入，运行时几乎为零的边际成本
隐私 – 您的数据在管道的 80 % 过程中永不离开本机
速度 – 本地阶段无需网络延迟
独立性 – 即使 API 宕机或价格上涨，您的工具仍能正常工作

实现这一目标的硬件成本不足 6 个月 的 Max‑tier AI 订阅费用。之后，它将永久归您所有。

更大的想法

我已经不再把我的设置看作是“本地 AI 安装”，而是把它视为一个 工具工厂。编排模式是可复用的。每个新工具都继承双模型架构——低成本扫描，高智商合成。工厂本身运行几乎不花钱；它生产的工具几乎也不需要费用来操作。

当 Anthropic 宣布 Cowork 时，市场惊慌失措，因为 AI 代理现在可以自主完成知识工作。但真正的颠覆并不是代理本身——而是经济模型。问题不再是 “AI 能做这项工作吗？”，而是 “谁来付费？”。

“对于计算资源，花费多少？”

我选择用一台 $2,000 笔记本电脑 和一些 Docker 容器来回答这个问题。

在消费级硬件上运行本地 AI 基础设施。我撰写关于实用 AI 架构的内容——模式、陷阱以及真实成本。系列后续内容敬请期待。

为什么我把80%的AI工作负载路由到免费本地模型（只为剩下的20%付费）

Anthropic 刚刚推出 Claude Cowork — 一个能够自主规划、执行并迭代任务的 AI 代理

没有人谈论的问题

双模型编排：模式

我的配置（实际数据）

典型研究流水线（50 条目）的成本比较

我实际用它构建的东西

注意事项（因为没有什么是免费的）

为什么现在很重要

更大的想法

相关文章

Anthropic：中国AI公司创建了24,000个用于distillation attacks的欺诈账户

Anthropic指责中国公司从Claude窃取数据

Ggml.ai 加入 Hugging Face，确保本地 AI 的长期进展

五角大楼刚刚威胁将Anthropic列入黑名单