开源 vs 专有 LLMs:真实成本拆解
发布: (2026年2月19日 GMT+8 20:35)
6 分钟阅读
原文: Dev.to
Source: Dev.to
TL;DR
- 每月低于 10 亿 token – 只使用专有 API。
- 每月 1 – 10 亿 token – 托管的开源 API(例如 Together.ai、Groq)通常是最便宜的选择。
- 每月超过 10 亿 token – 自行托管可能更划算,但前提是你已经拥有一支 MLOps 团队。
“开源是免费”的说法忽略了每年 30 万 – 60 万美元 的工程开销。
价格变动迅速。以下数据截至 2026 年 2月,按 每 1 百万 token(输入 / 输出)计价。
托管‑API 定价(每 1 M 令牌)
| 模型 | 提供商 | 输入 | 输出 | 备注 |
|---|---|---|---|---|
| Llama 4 Maverick | Together.ai | $0.27 | $0.85 | |
| Llama 4 Maverick | Groq | $0.20 | $0.60 | 562 tok/s |
| GPT‑OSS‑120B | Together.ai / Fireworks / Groq | $0.15 | $0.60 | |
| GPT‑OSS‑20B | Together.ai | $0.05 | $0.20 | “优惠层” |
| DeepSeek V3.1 | Together.ai | $0.60 | $1.70 | |
| Qwen3‑235B | Together.ai | $0.20 | $0.60 | |
| Mistral Small 3 | Together.ai | $0.10 | $0.30 |
专有 API 定价(每 1 M tokens)
| 模型 | 输入 | 输出 | 来源 |
|---|---|---|---|
| GPT‑5.2 | $1.75 | $14.00 | OpenAI |
| GPT‑5 mini | $0.25 | $2.00 | OpenAI |
| Claude Opus 4.6 | $5.00 | $25.00 | Anthropic |
| Claude Sonnet 4.6 | $3.00 | $15.00 | Anthropic |
| Gemini 2.5 Flash | $0.30 | $2.5 |
快速观察
- GPT‑OSS‑120B 的 $0.15 输入费用 ≈ 11× 更便宜 于 GPT‑5.2 的输入侧。
- GPT‑5 mini 和 Gemini 2.5 Flash 处于中间区间,专有定价意外地接近开源托管费率。
如需更深入了解月度趋势,请参阅完整的定价比较(原文中的链接)。
实际决策空间
| Option | Description |
|---|---|
| 1️⃣ Proprietary API | 直接向 OpenAI、Anthropic 或 Google 付费。 |
| 2️⃣ Hosted open‑source API | 向 Together.ai、Groq 或 Fireworks 付费,让他们为你运行开源模型。 |
| 3️⃣ Self‑hosted open source | 租用 GPU 并自行运行模型。 |
Option 2 常被忽视。它在 不需要运维负担 的情况下提供开源权重的灵活性——对大多数公司而言是最佳选择。
Option 3 看起来纸面上很有吸引力,但实际上它是 一种伪装成技术决策的人员配置决策。
成本比较:GPT‑OSS‑120B (Together.ai) vs. 自托管
假设
- 托管价格:$0.15 / $0.60(输入 / 输出),通过 Together.ai。
- 自托管硬件:Lambda Labs H100,费用为 $2.99 / hr(≈ $2,183 / mo)。
- 单个 H100 运行 70 B 模型约为 50 tokens / s → ≈ 130 M tokens / mo。
| 规模(tokens/mo) | Together.ai 成本 | 自托管成本* | 胜出者 |
|---|---|---|---|
| 10 M | ~ $4.50 | $2,183 + 工程开销 | API(遥遥领先) |
| 100 M | ~ $45 | $2,183 + 工程开销 | API |
| 1 B | ~ $450 | $2,183 + 工程开销 | 计算成本大致相当,但在总成本上 API 更胜一筹 |
| 10 B | ~ $4,500 | ~ $17 K 计算(8 × H100) + 工程开销 | 取决于你的团队 |
*仅计算成本的交叉点约为 1 – 2 B tokens/月;工程开销使盈亏平衡点上移。
云 GPU 定价影响
| 提供商 | 实例 | 每小时费用 | 备注 |
|---|---|---|---|
| AWS | H100(按需) | ~$3.90 / hr | 高于 Lambda Labs |
| AWS | H100(预留) | $1.85 / hr | 需要一年承诺 |
| Fireworks | H200 | $6.00 / hr | 每美元吞吐量更高 |
| Fireworks | B200 | $9.00 / hr | 吞吐量更高,成本也更高 |
即使使用预留实例,大多数工作负载的经济性仍然更倾向于 API。
自托管的隐藏成本
- MLOps 团队: $300 K – $600 K / yr (2 – 4 名工程师)。
- 运营开销: 监控、告警、模型版本管理、回滚流程、GPU 利用率调优(30 % – 50 % 浪费)、安全补丁、合规审计、值班轮换。
- 升级跑步机: 新模型发布 → 重新运行评估、重新调优、重新部署。使用 API 只需更改模型字符串。
这些成本 在简单的 $/token 计算中从未出现,但却是真实的预算项目。
自行托管有意义的情况
- 合规性与数据主权 – 医疗、金融或任何需要将数据保留在本地的受监管行业(HIPAA、GDPR)。无需 BAA 谈判,也不依赖供应商的合规声明。
- 空气隔离环境 – 国防、某些政府机构以及一些无法将数据发送至外部 API 的金融机构。
- 大规模微调
- OpenAI 的 GPT‑4.1 微调:$25 / M tokens。
- Open