GPU 价格两个月上涨 48%。我在车库里运行 LLM。

发布: 2小时前 (2026年4月24日 GMT+8 22:00)

5 分钟阅读

Source: Dev.to

云 GPU 危机

Nvidia Blackwell 租赁费: $4.08/小时（两个月前为 $2.75，上涨 48%）。
CoreWeave: 提价 20%，并将最低合同期限从 1 年延长至 3 年。
Anthropic: 将最新模型的使用限制在大约 40 家组织。

OpenAI 财务总监 Sarah Friar: “我们目前在一些我们不追求的项目上做了非常艰难的取舍，因为我们没有足够的算力。”

Tom Tunguz 列出了伤害小玩家的五大因素：

最后一点最有意思。

当云 GPU 价格在两个月内跳涨 48%，最低合同期限延长至三年，且模型提供商限制访问时，市场会把人们推向两种替代方案：更小的模型和本地（自建）基础设施。

我已经走上了这条路。

我在纳什维尔的车库里使用消费级硬件进行本地 LLM 推理：

Llama 3.1 8B 通过 llama.cpp 在 5070 Ti 上运行。推理成本仅为电费——没有 API 调用、没有速率限制、没有三年合同、没有基于关系的访问。

需要更大模型时使用 5090。它的 32 GB VRAM 能容纳量化后的模型，这些模型在 Blackwell 硬件上租用要花 $4.08/小时。

假设每天需要 4 小时的 GPU 推理时间。

云端（Blackwell）: $4.08 /小时 × 4 小时 × 30 天 = $489/月（且仍需获取访问权限）。
本地（RTX 5090）: 显卡成本约 $2,000。每天 4 小时的电费约 $15/月。约 4 个月后即可收回成本；此后每月仅 $15，且永久拥有硬件。

结果：$489/月对比 $15/月，且硬件归你所有。

注: 这里忽略了性能差距——Blackwell 更快且能处理更大的模型。对于大多数生产推理需求的 8 B–70 B 参数范围，消费级 GPU 已足够。

本地推理并非万能方案。仍然需要云 GPU 的场景包括：

大多数构建者并不做这些工作；他们只需要为代理、内部工具或原型提供推理，消费级硬件足以胜任。

算力稀缺是控制 GPU 的人以及能够不依赖 GPU 的人共同的护城河。把 AI 代理运行在办公室的 $2,000 GPU 上，而不是租用 $4.08/小时的云端 GPU，能够带来成本优势，并且随着云费用上涨和消费级 GPU 性价比下降，这一优势会每月扩大。

pip install agentguard47

AgentGuard 可与任何提供商配合使用，无论是云端还是本地。预算上限、循环检测和超时防护可以在推理发生地点不变的情况下保护你的代理运行。