个人 AI 开发环境,使用 RTX 5090 + WSL2 构建 — 完全利用 32GB GPU 的实用设置

发布: (2026年3月8日 GMT+8 17:26)
4 分钟阅读
原文: Dev.to

Source: Dev.to

为什么选择 RTX 5090 + WSL2?

RTX 5090 的 32 GB 显存是本地推理大型 LLM 模型的实用选择。相较于 RTX 4090(24 GB),显存容量提升了 33 %,为模型规模的扩展提供了更多空间。借助 vLLM 的批处理,并行推理可以充分利用这 32 GB 显存。

CUDA 12.8 是最新的工具包,提供对 PyTorch 和 Triton 的完整兼容性。在 WSL2 环境中,Windows 主机的 GPU 驱动直接提供 GPU,使用户能够受益于 Linux 工具链(vLLM、TensorRT、llama.cpp 等)。

整体系统配置

vLLM 服务器(常驻进程)

systemctl --user enable vllm.service
systemctl --user start vllm.service
  • 模型: 以 FP8 推理 Nemotron 9B 等模型。
  • 使用 gpu-memory-utilization 控制使用量

TensorRT 将棋 AI

使用 TensorRT 对 FP8 量化模型进行优化,以实现高速推理。

Streamlit 应用

提供用于展示 LLM 推理结果、搜索表单等功能的 UI。

GPU 共享实践

vLLM 服务器以常驻进程启动,并通过 CUDA_VISIBLE_DEVICES 指定特定 GPU。启动将棋 AI 时,使用 gpu-memory-utilization 参数限制 vLLM 的使用,从而实现资源共享。

切换流程

  1. 检查 vLLM 的显存使用情况。
  2. 根据需要重启 vLLM 服务以调整显存分配。
  3. 启动 TensorRT 进程。

WSL2‑特有的坑

设置显存限制

WSL2 的默认显存限制可能不足。

# ~/.wslconfig (on Windows)
[wsl2]
memory=16GB

修改设置后,使用以下命令应用:

wsl --shutdown

磁盘 I/O 延迟

从 WSL2 访问 Windows 文件系统(/mnt/c/...)时 I/O 性能会下降。将数据文件放在 WSL2 发行版内部(/home/...)即可利用原生 Linux 文件系统的性能。

systemd 服务配置

如果在 WSL2 中使用 systemd,请在 /etc/wsl.conf 中加入:

[boot]
systemd=true

要让用户服务自动启动,执行:

loginctl enable-linger $USER

示例工作负载

LLM 推理 (vLLM)

python -m vllm.entrypoints.openai.api_server \
  --model nvidia/NVIDIA-Nemotron-Nano-9B-v2-Japanese \
  --dtype auto \
  --max-model-len 32768

将棋 AI(TensorRT 优化)

FP8 量化实现高速推理,同时显著节省显存。

SQLite FTS5 搜索

利用全文搜索引擎进行快速数据检索,也可以并行运行。

总结

RTX 5090 + WSL2 的组合是一套实用的方案,能够将完整的 32 GB 显存用于 AI 开发。通过调整配置文件并启用 systemd,可解决 WSL2 的挑战(显存限制、磁盘 I/O),从而充分利用最新的 vLLM 与 TensorRT 功能。将数据文件放置在 WSL2 的 Linux 文件系统中是提升性能的关键。

0 浏览
Back to Blog

相关文章

阅读更多 »