个人开发者的作品集策略：在单个 RTX 5090 上运行 13 项目

发布: 2天前 (2026年3月8日 GMT+8 17:17)

4 分钟阅读

原文: Dev.to

Source: Dev.to

13 项目列表

Legal Tech

合同自动生成工具（使用 Streamlit + Gemini API 的条款建议）
判例检索系统（使用 SQLite FTS5 快速检索判例文档）
法规合规聊天机器人（使用 Gemini 提供条文解释支持）

Chemical Simulation

分子结构预测模型（FP8 量化 ResNet）
反应速率计算引擎（CUDA 内核优化）

Shogi AI

Fuka40B（FP8 量化 ResNet40x384，80 层）
Fuka2025Q2-20b（FP8 策略评估模型）
Floodgate 策略引擎
ttzl‑ex（TensorRT 推理优化）
将棋数据分析流水线

其他

Minecraft AI 助手（vLLM 常驻）
股票数据可视化仪表盘
研究笔记管理系统

标准化技术栈

搜索基础设施：SQLite FTS5

为统一所有项目的搜索功能，采用 SQLite FTS5。针对专利文档和判例数据，通过 BM25 排序实现快速且高度相关的检索。

通用 UI：Streamlit

所有应用的前端均使用 Streamlit，统一在集成 Gemini API 时的响应展示方式。

import streamlit as st
from google import genai

client = genai.Client()

response = client.models.generate_content(
    model="gemini-2.5-flash",
    contents="特許文書から条項を抽出"
)
st.markdown(f"**提案条項**:\n{response.text}")

GPU 共享策略

vLLM 常驻架构

为最大化 RTX 5090 32 GB 显存的利用率，vLLM 以常驻进程方式启动。推理引擎会根据每个项目的模型大小进行切换。

TensorRT 切换逻辑

在将棋 AI 中，模型使用 TensorRT 进行优化。

trtexec \
  --onnx=models/eval/model_fp8.onnx \
  --fp8 \
  --minShapes=input1:1x62x9x9,input2:1x57x9x9 \
  --optShapes=input1:256x62x9x9,input2:256x57x9x9 \
  --maxShapes=input1:256x62x9x9,input2:256x57x9x9 \
  --saveEngine=model_fp8_trt

GPU 使用监控

while true; do
  usage=$(nvidia-smi --query-gpu=utilization.gpu --format=csv,noheader,nounits | tr -d ' ')
  if [ "$usage" -gt 80 ]; then
    systemctl --user stop vllm.service
  fi
  sleep 60
done

Cloudflare + Caddy 发布基础设施

所有 Web 项目均通过 Cloudflare Tunnel + Caddy 发布。Caddy 充当反向代理，处理 HTTPS 终止和路由。

横向安全部署

在所有项目中统一应用安全策略。

API 密钥通过环境变量管理，未硬编码。
分支保护配置为必须通过 Pull Request。
自动执行周期性日志审计脚本。

运维技巧

统一使用 CUDA 12.8，解决项目间的版本冲突。
通过环境变量管理每个项目的库路径。
当 GPU 利用率超过阈值时自动停止服务。

总结

为最大化 RTX 5090 32 GB 显存的利用，重点关注了三点：

构建通用基础设施 – 使用 SQLite FTS5 与 Streamlit 标准化搜索和 UI。
动态资源管理 – 通过 vLLM + TensorRT 切换，根据模型负载进行优化。
横向安全部署 – 标准化身份验证流程。

在将棋 AI 项目中，FP8 量化结合 TensorRT 相比 FP16 实现了显著的推理速度提升。将“技术选型的自由度”与“通用基础设施的重要性”平衡，是个人开发成功的关键。