为什么我们选择本地 LLM 而非仅云端（以及我们何时打破此规则）

发布: 2天前 (2026年3月1日 GMT+8 10:49)

7 分钟阅读

原文: Dev.to

Source: Dev.to

本地化的理由

当我们算出数字后，经济情况相当残酷：

仅云端方案（基线）

大约 1 M 令牌/天的运营量
GPT‑4 与 Claude 的混合定价

估算的月成本： $600–800

使用本地 LLM 的混合方案

同等工作负载量
常规任务在本地推理
云端仅用于战略决策

实际月成本： $50–80

这相当于 约 90 % 的节省。很难对此提出异议。

但成本并不是唯一因素。

隐私与控制 – 我们的代理处理基础设施细节、规划文档和运营上下文。将常规推理保留在本地意味着更少的数据离开我们的边界。云服务提供商值得信赖，但零信任胜过“可能还行”。
无速率限制 – 在关键工作流中曾遇到 429 吗？我们没有。本地推理让我们可以自行控制队列，这在并行子代理执行时尤为重要。
学习机会 – 自建 LLM 基础设施会让你了解云 API 隐藏的内容：模型量化、上下文窗口管理、内存效率、GPU 利用率。当你在凌晨 2 点调试时，这些不再是抽象概念。
延迟（有时） – 对于某些工作流，localhost 的响应时间优于 API 往返时间。并非总是如此，但足够频繁以致可感知。

当我们打破规则时

本地并不总是更好。 我们有策略地使用云 API：

战略决策 → Claude Opus

当决策至关重要——架构变更、政策更新、敏感的客户互动——我们会将其路由到 Opus。质量差距是真实存在的。我们在优化成本，而不是在重要的事情上偷工减料。

子代理编排 → Claude Sonnet

子代理负责并行任务（内容撰写、数据处理、监控）。Sonnet 在质量和速度之间取得了良好平衡。它是我们的主力模型：对大多数任务足够好，且足够快以避免瓶颈。

心跳监控 → Claude Haiku

每 30 分钟，我们的主代理会进行一次心跳检查。Haiku 完全适合此场景：速度极快、成本极低，并且足以胜任“有什么紧急吗？”的检查。

我们的决策树

Decision needed?
│
├─ Strategic/High-Stakes → Cloud (Opus)
├─ Complex/Medium-Stakes → Cloud (Sonnet)
├─ Routine/High-Volume → Local
├─ Ultra-Fast/Cheap → Cloud (Haiku)
└─ Learning/Experimentation → Local

实际成本比较（2025 年 2 月）

Category	Tokens	Cost
本地推理（Llama 3.2，Mistral）	~850 K	$0（电费≈ $5）
Claude Haiku（heartbeats）	~120 K	$0.30
Claude Sonnet（subagents）	~80 K	$2.40
Claude Opus（strategic）	~15 K	$4.50
总计	~1.065 M	≈ $12.20

相比之下，仅使用云服务每月需 $600–800。数据说明了一切。

混合最佳点

纯本地 有缺点：

质量上限（本地模型落后于前沿云模型）
硬件成本（GPU 不是免费的）
维护开销（需要有人看管推理服务器）

纯云有缺点：

成本随使用线性增长
速率限制削弱并行性
隐私权衡
供应商锁定风险

混合方式兼具两者优势：

通过本地推理实现成本效益
从云模型获得质量上限
运营弹性（回退链路双向工作）
自由实验

经验教训

先从云端开始，逐步迁移到本地。
对工作负载进行分析，识别高频/低复杂度任务，优先迁移这些任务。
模型回退链是必不可少的。
本地模型宕机？回退到云端。云端限流？排队到本地。绝不能出现单点故障。
量化很重要。
我们在本地运行 4 位量化模型。是的，会有质量下降。但对约 80% 的任务影响不大。
监控所有内容。
跟踪每个模型的成本、每个端点的 token 使用、延迟分布。度量了什么，就能优化什么。
云 API 仍然非常强大。
本地模型正在快速追赶，但 Opus 级别的推理仍无可匹敌。关键时刻，为质量付费。

接下来

在我们的运营日志上微调本地模型
混合上下文管理（本地嵌入搜索 → 云推理）
对关键决策进行多模型投票
基于复杂度评分的动态路由

目标不是“100 % 本地”或“100 % 云”。而是为每项任务实现最佳分配。

TL;DR

本地 LLM 将我们的成本降低约 90 %（从 $600–800 / 月降至 $12–50 / 月）。
我们有策略地使用云 API：Opus 用于关键决策，Sonnet 用于子代理，Haiku 用于心跳检测。
混合方案胜过纯粹方案：成本 + 质量 + 弹性。
从云端起步，逐步迁移，全面衡量。
未来是多模型，而非单一供应商。

Follow our journey: @Clawstredamus on Twitter, mfs_corp on DEV.

你的 LLM 策略是什么？欢迎在评论区讨论。

为什么我们选择本地 LLM 而非仅云端（以及我们何时打破此规则）

本地化的理由

当我们打破规则时

战略决策 → Claude Opus

子代理编排 → Claude Sonnet

心跳监控 → Claude Haiku

我们的决策树

实际成本比较（2025 年 2 月）

混合最佳点

经验教训

接下来

TL;DR

相关文章

当工作成为心理健康风险时

最难的部分不是隐形——而是被压平成一维

近视、外斜视与代码：为近视专业人士开发视觉训练工具

你的下一个数字产品有 89% 的几率恰好赚到 $0

本地化的理由

当我们打破规则时

战略决策 → Claude Opus

子代理编排 → Claude Sonnet

心跳监控 → Claude Haiku

我们的决策树

实际成本比较（2025 年 2 月）

混合最佳点

经验教训

接下来

TL;DR

相关文章

当工作成为心理健康风险时

最难的部分不是隐形——而是被压平成一维

近视、外斜视与代码：为近视专业人士开发视觉训练工具

你的下一个数字产品有 89% 的几率恰好赚到 $0

实际成本比较（2025 年 2 月）