开源 vs 专有 LLMs：真实成本拆解

发布: 2个月前 (2026年2月19日 GMT+8 20:35)

6 分钟阅读

原文: Dev.to

Source: Dev.to

TL;DR

每月低于 10 亿 token – 只使用专有 API。
每月 1 – 10 亿 token – 托管的开源 API（例如 Together.ai、Groq）通常是最便宜的选择。
每月超过 10 亿 token – 自行托管可能更划算，但前提是你已经拥有一支 MLOps 团队。

“开源是免费”的说法忽略了每年 30 万 – 60 万美元 的工程开销。

价格变动迅速。以下数据截至 2026 年 2月，按 每 1 百万 token（输入 / 输出）计价。

托管‑API 定价（每 1 M 令牌）

模型	提供商	输入	输出	备注
Llama 4 Maverick	Together.ai	$0.27	$0.85
Llama 4 Maverick	Groq	$0.20	$0.60	562 tok/s
GPT‑OSS‑120B	Together.ai / Fireworks / Groq	$0.15	$0.60
GPT‑OSS‑20B	Together.ai	$0.05	$0.20	“优惠层”
DeepSeek V3.1	Together.ai	$0.60	$1.70
Qwen3‑235B	Together.ai	$0.20	$0.60
Mistral Small 3	Together.ai	$0.10	$0.30

专有 API 定价（每 1 M tokens）

模型	输入	输出	来源
GPT‑5.2	$1.75	$14.00	OpenAI
GPT‑5 mini	$0.25	$2.00	OpenAI
Claude Opus 4.6	$5.00	$25.00	Anthropic
Claude Sonnet 4.6	$3.00	$15.00	Anthropic
Gemini 2.5 Flash	$0.30	$2.5	Google

快速观察

GPT‑OSS‑120B 的 $0.15 输入费用 ≈ 11× 更便宜 于 GPT‑5.2 的输入侧。
GPT‑5 mini 和 Gemini 2.5 Flash 处于中间区间，专有定价意外地接近开源托管费率。

如需更深入了解月度趋势，请参阅完整的定价比较（原文中的链接）。

实际决策空间

Option	Description
1️⃣ Proprietary API	直接向 OpenAI、Anthropic 或 Google 付费。
2️⃣ Hosted open‑source API	向 Together.ai、Groq 或 Fireworks 付费，让他们为你运行开源模型。
3️⃣ Self‑hosted open source	租用 GPU 并自行运行模型。

Option 2 常被忽视。它在 不需要运维负担 的情况下提供开源权重的灵活性——对大多数公司而言是最佳选择。

Option 3 看起来纸面上很有吸引力，但实际上它是 一种伪装成技术决策的人员配置决策。

成本比较：GPT‑OSS‑120B (Together.ai) vs. 自托管

假设

托管价格：$0.15 / $0.60（输入 / 输出），通过 Together.ai。
自托管硬件：Lambda Labs H100，费用为 $2.99 / hr（≈ $2,183 / mo）。
单个 H100 运行 70 B 模型约为 50 tokens / s → ≈ 130 M tokens / mo。

规模（tokens/mo）	Together.ai 成本	自托管成本*	胜出者
10 M	~ $4.50	$2,183 + 工程开销	API（遥遥领先）
100 M	~ $45	$2,183 + 工程开销	API
1 B	~ $450	$2,183 + 工程开销	计算成本大致相当，但在总成本上 API 更胜一筹
10 B	~ $4,500	~ $17 K 计算（8 × H100） + 工程开销	取决于你的团队

*仅计算成本的交叉点约为 1 – 2 B tokens/月；工程开销使盈亏平衡点上移。

云 GPU 定价影响

提供商	实例	每小时费用	备注
AWS	H100（按需）	~$3.90 / hr	高于 Lambda Labs
AWS	H100（预留）	$1.85 / hr	需要一年承诺
Fireworks	H200	$6.00 / hr	每美元吞吐量更高
Fireworks	B200	$9.00 / hr	吞吐量更高，成本也更高

即使使用预留实例，大多数工作负载的经济性仍然更倾向于 API。

自托管的隐藏成本

MLOps 团队: $300 K – $600 K / yr (2 – 4 名工程师)。
运营开销: 监控、告警、模型版本管理、回滚流程、GPU 利用率调优（30 % – 50 % 浪费）、安全补丁、合规审计、值班轮换。
升级跑步机: 新模型发布 → 重新运行评估、重新调优、重新部署。使用 API 只需更改模型字符串。

这些成本 在简单的 $/token 计算中从未出现，但却是真实的预算项目。

自行托管有意义的情况

合规性与数据主权 – 医疗、金融或任何需要将数据保留在本地的受监管行业（HIPAA、GDPR）。无需 BAA 谈判，也不依赖供应商的合规声明。
空气隔离环境 – 国防、某些政府机构以及一些无法将数据发送至外部 API 的金融机构。
大规模微调
- OpenAI 的 GPT‑4.1 微调：$25 / M tokens。
- Open

开源 vs 专有 LLMs：真实成本拆解

TL;DR

托管‑API 定价（每 1 M 令牌）

专有 API 定价（每 1 M tokens）

快速观察

实际决策空间

成本比较：GPT‑OSS‑120B (Together.ai) vs. 自托管

云 GPU 定价影响

自托管的隐藏成本

自行托管有意义的情况

相关文章

用于构建自主 AI 队友的 Python SDK

数字主权的幻觉：为何供应商更换不是合规策略

热情引荐

Visual Studio Weekly：Copilot 记忆、AI 驱动的测试和自定义代理

TL;DR

托管‑API 定价（每 1 M 令牌）

专有 API 定价（每 1 M tokens）

快速观察

实际决策空间

成本比较：GPT‑OSS‑120B (Together.ai) vs. 自托管

云 GPU 定价影响

自托管的隐藏成本

自行托管有意义的情况

相关文章

用于构建自主 AI 队友的 Python SDK

数字主权的幻觉：为何供应商更换不是合规策略

热情引荐

Visual Studio Weekly：Copilot 记忆、AI 驱动的测试和自定义代理

托管‑API 定价（每 1 M 令牌）

专有 API 定价（每 1 M tokens）