开源 vs 专有 LLMs:真实成本拆解

发布: (2026年2月19日 GMT+8 20:35)
6 分钟阅读
原文: Dev.to

Source: Dev.to

TL;DR

  • 每月低于 10 亿 token – 只使用专有 API。
  • 每月 1 – 10 亿 token – 托管的开源 API(例如 Together.ai、Groq)通常是最便宜的选择。
  • 每月超过 10 亿 token – 自行托管可能更划算,但前提是你已经拥有一支 MLOps 团队。

“开源是免费”的说法忽略了每年 30 万 – 60 万美元 的工程开销。

价格变动迅速。以下数据截至 2026 年 2月,按 每 1 百万 token(输入 / 输出)计价。

托管‑API 定价(每 1 M 令牌)

模型提供商输入输出备注
Llama 4 MaverickTogether.ai$0.27$0.85
Llama 4 MaverickGroq$0.20$0.60562 tok/s
GPT‑OSS‑120BTogether.ai / Fireworks / Groq$0.15$0.60
GPT‑OSS‑20BTogether.ai$0.05$0.20“优惠层”
DeepSeek V3.1Together.ai$0.60$1.70
Qwen3‑235BTogether.ai$0.20$0.60
Mistral Small 3Together.ai$0.10$0.30

专有 API 定价(每 1 M tokens)

模型输入输出来源
GPT‑5.2$1.75$14.00OpenAI
GPT‑5 mini$0.25$2.00OpenAI
Claude Opus 4.6$5.00$25.00Anthropic
Claude Sonnet 4.6$3.00$15.00Anthropic
Gemini 2.5 Flash$0.30$2.5Google

快速观察

  • GPT‑OSS‑120B$0.15 输入费用 ≈ 11× 更便宜 于 GPT‑5.2 的输入侧。
  • GPT‑5 miniGemini 2.5 Flash 处于中间区间,专有定价意外地接近开源托管费率。

如需更深入了解月度趋势,请参阅完整的定价比较(原文中的链接)。

实际决策空间

OptionDescription
1️⃣ Proprietary API直接向 OpenAI、Anthropic 或 Google 付费。
2️⃣ Hosted open‑source API向 Together.ai、Groq 或 Fireworks 付费,让他们为你运行开源模型。
3️⃣ Self‑hosted open source租用 GPU 并自行运行模型。

Option 2 常被忽视。它在 不需要运维负担 的情况下提供开源权重的灵活性——对大多数公司而言是最佳选择。

Option 3 看起来纸面上很有吸引力,但实际上它是 一种伪装成技术决策的人员配置决策

成本比较:GPT‑OSS‑120B (Together.ai) vs. 自托管

假设

  • 托管价格:$0.15 / $0.60(输入 / 输出),通过 Together.ai。
  • 自托管硬件:Lambda Labs H100,费用为 $2.99 / hr(≈ $2,183 / mo)。
  • 单个 H100 运行 70 B 模型约为 50 tokens / s → ≈ 130 M tokens / mo
规模(tokens/mo)Together.ai 成本自托管成本*胜出者
10 M~ $4.50$2,183 + 工程开销API(遥遥领先)
100 M~ $45$2,183 + 工程开销API
1 B~ $450$2,183 + 工程开销计算成本大致相当,但在总成本上 API 更胜一筹
10 B~ $4,500~ $17 K 计算(8 × H100) + 工程开销取决于你的团队

*仅计算成本的交叉点约为 1 – 2 B tokens/月;工程开销使盈亏平衡点上移。

云 GPU 定价影响

提供商实例每小时费用备注
AWSH100(按需)~$3.90 / hr高于 Lambda Labs
AWSH100(预留)$1.85 / hr需要一年承诺
FireworksH200$6.00 / hr每美元吞吐量更高
FireworksB200$9.00 / hr吞吐量更高,成本也更高

即使使用预留实例,大多数工作负载的经济性仍然更倾向于 API。

自托管的隐藏成本

  • MLOps 团队: $300 K – $600 K / yr (2 – 4 名工程师)。
  • 运营开销: 监控、告警、模型版本管理、回滚流程、GPU 利用率调优(30 % – 50 % 浪费)、安全补丁、合规审计、值班轮换。
  • 升级跑步机: 新模型发布 → 重新运行评估、重新调优、重新部署。使用 API 只需更改模型字符串。

这些成本 在简单的 $/token 计算中从未出现,但却是真实的预算项目。

自行托管有意义的情况

  1. 合规性与数据主权 – 医疗、金融或任何需要将数据保留在本地的受监管行业(HIPAA、GDPR)。无需 BAA 谈判,也不依赖供应商的合规声明。
  2. 空气隔离环境 – 国防、某些政府机构以及一些无法将数据发送至外部 API 的金融机构。
  3. 大规模微调
    • OpenAI 的 GPT‑4.1 微调:$25 / M tokens
    • Open
0 浏览
Back to Blog

相关文章

阅读更多 »

Apex B. OpenClaw,局部嵌入

本地嵌入用于私有记忆搜索。默认情况下,OpenClaw 的 memory search 会将文本发送到外部的 embedding API,通常是 Anthropic 或 OpenAI……

Apex 1. OpenClaw, 供应商历史

从 ChatGPT、Anthropic 和 Google Gemini 导入聊天记录。使用 OpenClaw,你可以做的最强大的事情之一是 bootstrap 你的记忆……