GPU 价格两个月上涨 48%。我在车库里运行 LLM。
Source: Dev.to
云 GPU 危机
Nvidia Blackwell 租赁费: $4.08/小时(两个月前为 $2.75,上涨 48%)。
CoreWeave: 提价 20%,并将最低合同期限从 1 年延长至 3 年。
Anthropic: 将最新模型的使用限制在大约 40 家组织。
OpenAI 财务总监 Sarah Friar: “我们目前在一些我们不追求的项目上做了非常艰难的取舍,因为我们没有足够的算力。”
Tom Tunguz 列出了伤害小玩家的五大因素:
- 基于关系的访问(需要认识内部人员)
- 价格壁垒
- 速度不确定性
- 商品成本上升
- 被迫迁移到替代方案
最后一点最有意思。
被迫使用替代方案意味着本地推理
当云 GPU 价格在两个月内跳涨 48%,最低合同期限延长至三年,且模型提供商限制访问时,市场会把人们推向两种替代方案:更小的模型和本地(自建)基础设施。
我已经走上了这条路。
我的配置
我在纳什维尔的车库里使用消费级硬件进行本地 LLM 推理:
- RTX 5090(主卡,32 GB VRAM)
- RTX 5070 Ti(副卡,16 GB VRAM)
- RTX 3070(旧卡,8 GB VRAM)
Llama 3.1 8B 通过 llama.cpp 在 5070 Ti 上运行。推理成本仅为电费——没有 API 调用、没有速率限制、没有三年合同、没有基于关系的访问。
需要更大模型时使用 5090。它的 32 GB VRAM 能容纳量化后的模型,这些模型在 Blackwell 硬件上租用要花 $4.08/小时。
计算
假设每天需要 4 小时的 GPU 推理时间。
- 云端(Blackwell): $4.08 /小时 × 4 小时 × 30 天 = $489/月(且仍需获取访问权限)。
- 本地(RTX 5090): 显卡成本约 $2,000。每天 4 小时的电费约 $15/月。约 4 个月后即可收回成本;此后每月仅 $15,且永久拥有硬件。
结果:$489/月 对比 $15/月,且硬件归你所有。
注: 这里忽略了性能差距——Blackwell 更快且能处理更大的模型。对于大多数生产推理需求的 8 B–70 B 参数范围,消费级 GPU 已足够。
本地不可行的情况
本地推理并非万能方案。仍然需要云 GPU 的场景包括:
- 训练模型(不仅是推理)
- 支持 100+ 并发用户且要求低延迟
- 运行 400 B+ 参数的模型,这类模型无法放入消费级显存
- 需要企业级 SLA 和正常运行时间保证
大多数构建者并不做这些工作;他们只需要为代理、内部工具或原型提供推理,消费级硬件足以胜任。
真正的护城河
算力稀缺是控制 GPU 的人以及能够不依赖 GPU 的人共同的护城河。把 AI 代理运行在办公室的 $2,000 GPU 上,而不是租用 $4.08/小时的云端 GPU,能够带来成本优势,并且随着云费用上涨和消费级 GPU 性价比下降,这一优势会每月扩大。
应对措施
- 审计你的推理成本。 找出可以迁移到本地的 API 开支。
- 先在本地跑一个模型。 在 RTX 3070 上运行 Llama 3.1 8B 是一个不错的起点——硬件买下后 $0/月。
- 保留云端用于必须使用云的场景。 训练、高并发生产、前沿模型。
- 保护你的云预算。 设置运行时限制,防止代理在无人看管时耗费金钱。
pip install agentguard47
AgentGuard 可与任何提供商配合使用,无论是云端还是本地。预算上限、循环检测和超时防护可以在推理发生地点不变的情况下保护你的代理运行。