经济实惠的 AI 服务器

发布: (2026年2月1日 GMT+8 01:44)
4 分钟阅读
原文: Dev.to

Source: Dev.to

介绍

两块从 eBay 买来的 AMD MI60 总价约 1,000 美元,提供了 64 GB 的 VRAM,足以在家里使用 32K 上下文窗口运行 Llama 3.3 70B。

当我开始研究在本地运行大语言模型时,最明显的限制因素是 VRAM。消费级 GPU 的内存上限为 24 GB(例如 RTX 4090)。我想在自己拥有的硬件上本地运行 70 B 参数的模型。

为什么选择 MI60?

MI60 是 AMD 于 2018 年为数据中心打造的服务器 GPU。它配备 32 GB HBM2 内存——这正是现代 AI 加速器使用的高带宽内存——在 eBay 上大约 500 美元即可入手。一台两块即可提供 64 GB VRAM,足以运行 Llama 3.3 70B。

优点

  • 内存: 每块卡 32 GB HBM2,理论带宽高于 GDDR6X。
  • 成本: 二手市场每块约 500 美元,比拥有相似内存的高端消费级 GPU 更便宜。
  • 推理性能: 对于受内存限制的推理工作负载,额外的内存和带宽比原始计算吞吐更重要。

缺点

  • 散热: 被动散热卡,设计用于具备强劲气流的服务器机箱。在普通 PC 机箱中会在几分钟内热降频。
  • PCIe 瓶颈: 两块卡进行张量并行时,PCIe 可能成为限制因素。
  • 软件支持: AMD 已停止对 gfx906 架构的主动开发,虽然向后兼容仍然可用。

散热方案

我 3D 打印了一个导风管,并采用推拉风扇配置:

  • 进气: 机箱内部的 120 mm 风扇,将空气吹过散热片。
  • 排气: 后部的 92 mm 风扇,将热空气抽出。

自定义风扇控制脚本根据 GPU 利用率同步风扇转速,使结温保持在约 80 °C,而不是之前散热不足时的 97 °C。

软件栈

  • ROCm: 在 ROCm 6.3 上运行没有问题;多年的 bug 修复让平台变得相当稳定。
  • 推理框架: vLLM 提供了最佳体验。我最初尝试了 Ollama,但性能明显较差,且在两块 GPU 上的张量并行不够流畅。vLLM 速度更快,尽管切换模型没有 Ollama 那样的“一键拉取‑运行”工作流(我为此构建了自定义方案)。

性能数据

在双 MI60 设置上使用 AWQ‑量化模型运行 vLLM

模型Tokens / secGPUs (tensor parallel)
Qwen3 8B~901
Qwen3 32B~311
Llama 3.3 70B~262 (tensor parallel)

8 B 和 32 B 模型响应迅速,甚至 70 B 模型也非常可用。

成本对比

大多数双 GPU 消费级配置的 VRAM 上限为 48 GB。两块 MI60 则以约 1,000 美元提供 64 GB。你需要自行解决散热问题(见上文),但这是一劳永逸的解决方案。

后续工作

我将继续撰写关于此配置的更多内容:

  • 详细的散热方案
  • 完整的软件栈演练
  • 模型切换工作流

剧透: Stable Diffusion 仍会锁住 GPU,我还没有让 Whisper 正常运行。

替代 GPU

MI60 并非唯一选择。二手市场上还有其他卡可供挑选:

  • AMD MI50、MI100
  • 各种 NVIDIA Tesla 型号

在选择时,请考虑内存容量、计算性能以及软件支持。

Back to Blog

相关文章

阅读更多 »