经济实惠的 AI 服务器
Source: Dev.to
介绍
两块从 eBay 买来的 AMD MI60 总价约 1,000 美元,提供了 64 GB 的 VRAM,足以在家里使用 32K 上下文窗口运行 Llama 3.3 70B。
当我开始研究在本地运行大语言模型时,最明显的限制因素是 VRAM。消费级 GPU 的内存上限为 24 GB(例如 RTX 4090)。我想在自己拥有的硬件上本地运行 70 B 参数的模型。
为什么选择 MI60?
MI60 是 AMD 于 2018 年为数据中心打造的服务器 GPU。它配备 32 GB HBM2 内存——这正是现代 AI 加速器使用的高带宽内存——在 eBay 上大约 500 美元即可入手。一台两块即可提供 64 GB VRAM,足以运行 Llama 3.3 70B。
优点
- 内存: 每块卡 32 GB HBM2,理论带宽高于 GDDR6X。
- 成本: 二手市场每块约 500 美元,比拥有相似内存的高端消费级 GPU 更便宜。
- 推理性能: 对于受内存限制的推理工作负载,额外的内存和带宽比原始计算吞吐更重要。
缺点
- 散热: 被动散热卡,设计用于具备强劲气流的服务器机箱。在普通 PC 机箱中会在几分钟内热降频。
- PCIe 瓶颈: 两块卡进行张量并行时,PCIe 可能成为限制因素。
- 软件支持: AMD 已停止对 gfx906 架构的主动开发,虽然向后兼容仍然可用。
散热方案
我 3D 打印了一个导风管,并采用推拉风扇配置:
- 进气: 机箱内部的 120 mm 风扇,将空气吹过散热片。
- 排气: 后部的 92 mm 风扇,将热空气抽出。
自定义风扇控制脚本根据 GPU 利用率同步风扇转速,使结温保持在约 80 °C,而不是之前散热不足时的 97 °C。
软件栈
- ROCm: 在 ROCm 6.3 上运行没有问题;多年的 bug 修复让平台变得相当稳定。
- 推理框架:
vLLM提供了最佳体验。我最初尝试了 Ollama,但性能明显较差,且在两块 GPU 上的张量并行不够流畅。vLLM速度更快,尽管切换模型没有 Ollama 那样的“一键拉取‑运行”工作流(我为此构建了自定义方案)。
性能数据
在双 MI60 设置上使用 AWQ‑量化模型运行 vLLM:
| 模型 | Tokens / sec | GPUs (tensor parallel) |
|---|---|---|
| Qwen3 8B | ~90 | 1 |
| Qwen3 32B | ~31 | 1 |
| Llama 3.3 70B | ~26 | 2 (tensor parallel) |
8 B 和 32 B 模型响应迅速,甚至 70 B 模型也非常可用。
成本对比
大多数双 GPU 消费级配置的 VRAM 上限为 48 GB。两块 MI60 则以约 1,000 美元提供 64 GB。你需要自行解决散热问题(见上文),但这是一劳永逸的解决方案。
后续工作
我将继续撰写关于此配置的更多内容:
- 详细的散热方案
- 完整的软件栈演练
- 模型切换工作流
剧透: Stable Diffusion 仍会锁住 GPU,我还没有让 Whisper 正常运行。
替代 GPU
MI60 并非唯一选择。二手市场上还有其他卡可供挑选:
- AMD MI50、MI100
- 各种 NVIDIA Tesla 型号
在选择时,请考虑内存容量、计算性能以及软件支持。