个人 AI 开发环境，使用 RTX 5090 + WSL2 构建 — 完全利用 32GB GPU 的实用设置

发布: 2天前 (2026年3月8日 GMT+8 17:26)

4 分钟阅读

Source: Dev.to

为什么选择 RTX 5090 + WSL2？

RTX 5090 的 32 GB 显存是本地推理大型 LLM 模型的实用选择。相较于 RTX 4090（24 GB），显存容量提升了 33 %，为模型规模的扩展提供了更多空间。借助 vLLM 的批处理，并行推理可以充分利用这 32 GB 显存。

CUDA 12.8 是最新的工具包，提供对 PyTorch 和 Triton 的完整兼容性。在 WSL2 环境中，Windows 主机的 GPU 驱动直接提供 GPU，使用户能够受益于 Linux 工具链（vLLM、TensorRT、llama.cpp 等）。

整体系统配置

vLLM 服务器（常驻进程）

systemctl --user enable vllm.service
systemctl --user start vllm.service

模型： 以 FP8 推理 Nemotron 9B 等模型。
使用 gpu-memory-utilization 控制使用量。

TensorRT 将棋 AI

使用 TensorRT 对 FP8 量化模型进行优化，以实现高速推理。

Streamlit 应用

提供用于展示 LLM 推理结果、搜索表单等功能的 UI。

GPU 共享实践

vLLM 服务器以常驻进程启动，并通过 CUDA_VISIBLE_DEVICES 指定特定 GPU。启动将棋 AI 时，使用 gpu-memory-utilization 参数限制 vLLM 的使用，从而实现资源共享。

切换流程

检查 vLLM 的显存使用情况。
根据需要重启 vLLM 服务以调整显存分配。
启动 TensorRT 进程。

WSL2‑特有的坑

设置显存限制

WSL2 的默认显存限制可能不足。

# ~/.wslconfig (on Windows)
[wsl2]
memory=16GB

修改设置后，使用以下命令应用：

wsl --shutdown

磁盘 I/O 延迟

从 WSL2 访问 Windows 文件系统（/mnt/c/...）时 I/O 性能会下降。将数据文件放在 WSL2 发行版内部（/home/...）即可利用原生 Linux 文件系统的性能。

systemd 服务配置

如果在 WSL2 中使用 systemd，请在 /etc/wsl.conf 中加入：

[boot]
systemd=true

要让用户服务自动启动，执行：

loginctl enable-linger $USER

示例工作负载

LLM 推理 (vLLM)

python -m vllm.entrypoints.openai.api_server \
  --model nvidia/NVIDIA-Nemotron-Nano-9B-v2-Japanese \
  --dtype auto \
  --max-model-len 32768

将棋 AI（TensorRT 优化）

FP8 量化实现高速推理，同时显著节省显存。

SQLite FTS5 搜索

利用全文搜索引擎进行快速数据检索，也可以并行运行。

总结

RTX 5090 + WSL2 的组合是一套实用的方案，能够将完整的 32 GB 显存用于 AI 开发。通过调整配置文件并启用 systemd，可解决 WSL2 的挑战（显存限制、磁盘 I/O），从而充分利用最新的 vLLM 与 TensorRT 功能。将数据文件放置在 WSL2 的 Linux 文件系统中是提升性能的关键。

个人 AI 开发环境，使用 RTX 5090 + WSL2 构建 — 完全利用 32GB GPU 的实用设置

为什么选择 RTX 5090 + WSL2？

整体系统配置

vLLM 服务器（常驻进程）

TensorRT 将棋 AI

Streamlit 应用

GPU 共享实践

切换流程

WSL2‑特有的坑

设置显存限制

磁盘 I/O 延迟

systemd 服务配置

示例工作负载

LLM 推理 (vLLM)

将棋 AI（TensorRT 优化）

SQLite FTS5 搜索

总结

相关文章

notion-flows: 你的 Notion 页面就是你的自动化代码

为什么 AI 代理需要未列出号码

为什么您的Docking Station无法检测External Monitor：深入探讨Multi-Display Architecture

你的代理是一个小型、低风险的 HAL

为什么选择 RTX 5090 + WSL2？

整体系统配置

vLLM 服务器（常驻进程）

TensorRT 将棋 AI

Streamlit 应用

GPU 共享实践

切换流程

WSL2‑特有的坑

设置显存限制

磁盘 I/O 延迟

systemd 服务配置

示例工作负载

LLM 推理 (vLLM)

将棋 AI（TensorRT 优化）

SQLite FTS5 搜索

总结

相关文章

notion-flows: 你的 Notion 页面就是你的自动化代码

为什么 AI 代理需要未列出号码

为什么您的Docking Station无法检测External Monitor：深入探讨Multi-Display Architecture

你的代理是一个小型、低风险的 HAL

为什么选择 RTX 5090 + WSL2？