经济实惠的 AI 服务器

发布: 3个月前 (2026年2月1日 GMT+8 01:44)

5 分钟阅读

原文: Dev.to

Source: Dev.to

介绍

两块从 eBay 买来的 AMD MI60 总价约 1,000 美元，提供了 64 GB 的 VRAM，足以在家里使用 32K 上下文窗口运行 Llama 3.3 70B。

当我开始研究在本地运行大语言模型时，最明显的限制因素是 VRAM。消费级 GPU 的内存上限为 24 GB（例如 RTX 4090）。我想在自己拥有的硬件上本地运行 70 B 参数的模型。

为什么选择 MI60？

MI60 是 AMD 于 2018 年为数据中心打造的服务器 GPU。它配备 32 GB HBM2 内存——这正是现代 AI 加速器使用的高带宽内存——在 eBay 上大约 500 美元即可入手。一台两块即可提供 64 GB VRAM，足以运行 Llama 3.3 70B。

优点

内存： 每块卡 32 GB HBM2，理论带宽高于 GDDR6X。
成本： 二手市场每块约 500 美元，比拥有相似内存的高端消费级 GPU 更便宜。
推理性能： 对于受内存限制的推理工作负载，额外的内存和带宽比原始计算吞吐更重要。

缺点

散热： 被动散热卡，设计用于具备强劲气流的服务器机箱。在普通 PC 机箱中会在几分钟内热降频。
PCIe 瓶颈： 两块卡进行张量并行时，PCIe 可能成为限制因素。
软件支持： AMD 已停止对 gfx906 架构的主动开发，虽然向后兼容仍然可用。

散热方案

我 3D 打印了一个导风管，并采用推拉风扇配置：

进气： 机箱内部的 120 mm 风扇，将空气吹过散热片。
排气： 后部的 92 mm 风扇，将热空气抽出。

自定义风扇控制脚本根据 GPU 利用率同步风扇转速，使结温保持在约 80 °C，而不是之前散热不足时的 97 °C。

软件栈

ROCm： 在 ROCm 6.3 上运行没有问题；多年的 bug 修复让平台变得相当稳定。
推理框架： vLLM 提供了最佳体验。我最初尝试了 Ollama，但性能明显较差，且在两块 GPU 上的张量并行不够流畅。vLLM 速度更快，尽管切换模型没有 Ollama 那样的“一键拉取‑运行”工作流（我为此构建了自定义方案）。

性能数据

在双 MI60 设置上使用 AWQ‑量化模型运行 vLLM：

模型	Tokens / sec	GPUs (tensor parallel)
Qwen3 8B	~90	1
Qwen3 32B	~31	1
Llama 3.3 70B	~26	2 (tensor parallel)

8 B 和 32 B 模型响应迅速，甚至 70 B 模型也非常可用。

成本对比

大多数双 GPU 消费级配置的 VRAM 上限为 48 GB。两块 MI60 则以约 1,000 美元提供 64 GB。你需要自行解决散热问题（见上文），但这是一劳永逸的解决方案。

后续工作

我将继续撰写关于此配置的更多内容：

详细的散热方案
完整的软件栈演练
模型切换工作流

剧透： Stable Diffusion 仍会锁住 GPU，我还没有让 Whisper 正常运行。

替代 GPU

MI60 并非唯一选择。二手市场上还有其他卡可供挑选：

AMD MI50、MI100
各种 NVIDIA Tesla 型号

在选择时，请考虑内存容量、计算性能以及软件支持。

经济实惠的 AI 服务器

介绍

为什么选择 MI60？

优点

缺点

散热方案

软件栈

性能数据

成本对比

后续工作

替代 GPU

相关文章

介绍 nono：用于 AI 代理的安全沙箱

在几秒钟内切换 Claude Code 提供商，使用 claude-provider（插件 + CLI）

如何在5-10分钟内设置 OpenClaw（无需 Mac Mini、VPS、代码）

调试我的大脑：为什么拖延实际上是‘情绪调节’故障