个人 AI 开发环境,使用 RTX 5090 + WSL2 构建 — 完全利用 32GB GPU 的实用设置
Source: Dev.to
为什么选择 RTX 5090 + WSL2?
RTX 5090 的 32 GB 显存是本地推理大型 LLM 模型的实用选择。相较于 RTX 4090(24 GB),显存容量提升了 33 %,为模型规模的扩展提供了更多空间。借助 vLLM 的批处理,并行推理可以充分利用这 32 GB 显存。
CUDA 12.8 是最新的工具包,提供对 PyTorch 和 Triton 的完整兼容性。在 WSL2 环境中,Windows 主机的 GPU 驱动直接提供 GPU,使用户能够受益于 Linux 工具链(vLLM、TensorRT、llama.cpp 等)。
整体系统配置
vLLM 服务器(常驻进程)
systemctl --user enable vllm.service
systemctl --user start vllm.service
- 模型: 以 FP8 推理 Nemotron 9B 等模型。
- 使用
gpu-memory-utilization控制使用量。
TensorRT 将棋 AI
使用 TensorRT 对 FP8 量化模型进行优化,以实现高速推理。
Streamlit 应用
提供用于展示 LLM 推理结果、搜索表单等功能的 UI。
GPU 共享实践
vLLM 服务器以常驻进程启动,并通过 CUDA_VISIBLE_DEVICES 指定特定 GPU。启动将棋 AI 时,使用 gpu-memory-utilization 参数限制 vLLM 的使用,从而实现资源共享。
切换流程
- 检查 vLLM 的显存使用情况。
- 根据需要重启 vLLM 服务以调整显存分配。
- 启动 TensorRT 进程。
WSL2‑特有的坑
设置显存限制
WSL2 的默认显存限制可能不足。
# ~/.wslconfig (on Windows)
[wsl2]
memory=16GB
修改设置后,使用以下命令应用:
wsl --shutdown
磁盘 I/O 延迟
从 WSL2 访问 Windows 文件系统(/mnt/c/...)时 I/O 性能会下降。将数据文件放在 WSL2 发行版内部(/home/...)即可利用原生 Linux 文件系统的性能。
systemd 服务配置
如果在 WSL2 中使用 systemd,请在 /etc/wsl.conf 中加入:
[boot]
systemd=true
要让用户服务自动启动,执行:
loginctl enable-linger $USER
示例工作负载
LLM 推理 (vLLM)
python -m vllm.entrypoints.openai.api_server \
--model nvidia/NVIDIA-Nemotron-Nano-9B-v2-Japanese \
--dtype auto \
--max-model-len 32768
将棋 AI(TensorRT 优化)
FP8 量化实现高速推理,同时显著节省显存。
SQLite FTS5 搜索
利用全文搜索引擎进行快速数据检索,也可以并行运行。
总结
RTX 5090 + WSL2 的组合是一套实用的方案,能够将完整的 32 GB 显存用于 AI 开发。通过调整配置文件并启用 systemd,可解决 WSL2 的挑战(显存限制、磁盘 I/O),从而充分利用最新的 vLLM 与 TensorRT 功能。将数据文件放置在 WSL2 的 Linux 文件系统中是提升性能的关键。