Homelab AI 堆栈 2026 — 运行哪些以及运行顺序
Source: Dev.to
TL;DR
别再把你的 AI 大脑跑在别人的服务器上了。
下面是我在自建实验室里实际使用的完整技术栈——按照真正有意义的部署顺序排列。
模型已经突破了一个临界点:qwen2.5:32b 在一台不错的机器上本地运行,已经在大多数开发者任务上超越了 GPT‑3.5。它免费、私密、离线,而且每个 token 都归你所有。
自托管 AI 栈不再是“技术炫耀”,而是良好的工程习惯。你不会在别人的笔记本上跑生产环境——为什么要在别人的服务器上进行推理?
1. 反向代理 & TLS(Traefik)
在任何东西暴露到互联网之前,先部署 Traefik。它提供自动 TLS、反向代理以及单一入口点。
docker run -d \
-p 80:80 -p 443:443 \
-v /var/run/docker.sock:/var/run/docker.sock \
traefik:v3.0
不要跳过这一步。 其它所有服务都将位于 Traefik 之后。
2. 安装 Ollama
curl -fsSL https://ollama.ai/install.sh | sh
运行你的第一个模型:
ollama run qwen2.5:32b
模型名称可以随意切换(例如 gemma3、mistral、phi4、llama3.2)。全部免费且不需要 API 密钥。
最低可行硬件
| 模型大小 | 推荐内存 |
|---|---|
| 7 B | 16 GB |
| 32 B | 32 GB+ |
Apple Silicon M 系列能够很好地胜任。
3. 聊天式 UI(Open WebUI)
一个 ChatGPT 风格的界面,直接连接 Ollama,支持多模型、会话历史和文档上传。
docker run -d -p 3000:8080 \
--add-host=host.docker.internal:host-gateway \
-v open-webui:/app/backend/data \
ghcr.io/open-webui/open-webui:main
这一步标志着本地 AI 从玩具转变为工作流工具。
4. 自动化(n8n)
把你的 LLM 连接到一切:邮件、Webhook、API、数据库、智能家居等。
docker run -d -p 5678:5678 \
-v n8n_data:/home/node/.n8n \
n8nio/n8n
示例工作流
- 邮件到达 → n8n 将其发送给 Ollama。
- Ollama 对邮件进行分类并草拟回复。
- 你审阅草稿。
零云端,完全隐私。
5. 统一的 OpenAI 兼容端点(LiteLLM)
当你拥有多个模型时,LiteLLM 为你提供一个统一的 OpenAI 兼容端点,让你的应用不再关心后端到底是哪一个。
model_list:
- model_name: local-fast
litellm_params:
model: ollama/qwen2.5:7b
api_base: http://localhost:11434
- model_name: local-heavy
litellm_params:
model: ollama/qwen2.5:32b
api_base: http://localhost:11434
6. 这套栈能实现的事
- 任何人都可以运行
ollama run llama3.2并向它提问。 - 真正的威力体现在你的自建实验室开始自主行动——读取你的邮件、监控服务、每天早上为你简报——所有数据都不离开你的网络。
这就是让你达到目标的完整技术栈。
Signal 关注 AI 工具、自动化和自建实验室的实际可行方案——经过真实硬件验证,毫无夸大。