2026년 홈랩 AI 스택: 셀프 호스팅 사용자가 실제로 운영하는 것
Source: Dev.to
r/selfhosted에서 5분만 시간을 투자하면 대화가 달라졌다는 것을 알 수 있습니다.
2년 전엔 모두가 “뭘 실행해야 할까?” 라고 물었지만, 이제는 소규모 비즈니스 인프라와 맞먹는 정교한 스택을 공유하고 있습니다. 셀프‑호스팅 AI 움직임이 성숙해졌습니다. 2026년에 실제로 배포할 가치가 있는 것들을 소개합니다.
Source: …
핵심 스택 (남은 것)
Ollama — 로컬 LLM 런타임
Ollama가 승리했습니다. LocalAI보다 단순함에서, llama.cpp보다 UX에서 뛰어났으며, 모델 라이브러리 덕분에 새로운 모델을 가져오는 것이 아주 간단합니다.
# Install
curl -fsSL https://ollama.ai/install.sh | sh
# Pull the best‑value model for 16 GB RAM
ollama pull qwen2.5:14b
# Or for 24 GB+ (M4 Mac mini, high‑RAM PC)
ollama pull qwen2.5:32b
# Test immediately
ollama run qwen2.5:14b "Explain what makes a good Docker Compose file"
하드웨어 현실 점검
| RAM | 실용적인 모델 크기 | 일반적인 사용 |
|---|---|---|
| 8 GB | 7 B | 기본 작업 |
| 16 GB | 14 B | 견고한 성능 |
| 24 GB (M4 Mac mini 최적점) | 32 B | GPT‑4 수준에 근접 |
| 32 GB+ | 70 B | 모든 용도에 탁월 |
Open WebUI — 인터페이스
~2 분 안에 배포되며 로컬에서 ChatGPT와 동등한 UI를 제공합니다.
# docker-compose.yml
services:
open-webui:
image: ghcr.io/open-webui/open-webui:main
volumes:
- open-webui:/app/backend/data
environment:
- OLLAMA_BASE_URL=http://host.docker.internal:11434
ports:
- "3000:8080"
extra_hosts:
- "host.docker.internal:host-gateway"
restart: unless-stopped
volumes:
open-webui:
n8n — 자동화 두뇌
AI를 다른 모든 것과 연결하기 위한 도구입니다. 자체 호스팅이며 워크플로당 제한이 없고 완전한 제어가 가능합니다.
2026년 최고의 활용 사례: n8n + Ollama = 비용 $0/월로 실행되는 프라이빗 AI 자동화.
내가 실제로 운영 중인 워크플로:
- Gmail → Ollama 분류 → 우선순위 플래그 → Telegram 알림
- RSS 피드 → Ollama 요약 → 매일 오전 7시 다이제스트
- 서버 로그 → Ollama 이상 탐지 → 이상 징후 시 알림
2026년에 교체된 항목
| 교체된 항목 | 교체된 항목 |
|---|---|
| LocalAI | Ollama |
| Flowise | n8n |
| Custom Python scripts | n8n workflows |
왜? Ollama는 기능이 더 완전하고, n8n은 AI 와 그 외 모든 것을 처리하며, n8n 워크플로는 코드를 건드리지 않고도 검사·편집·디버깅이 가능합니다.
2026년에 추가된 내용
Whisper.cpp — 로컬 오디오 전사
brew install whisper-cpp # or build from source for max performance
# Transcribe any audio file
whisper-cpp --model base.en audio.mp3
사용 사례: 회의 전사, 음성‑메모 → 텍스트, 로컬 팟캐스트 검색.
LiteLLM — 통합 프록시
LiteLLM은 모든 AI 모델 앞에 위치하여 단일 OpenAI‑호환 API 엔드포인트를 제공합니다.
# docker-compose.yml (excerpt)
services:
litellm:
image: ghcr.io/berriai/litellm:main-latest
ports:
- "4000:4000"
environment:
- ANTHROPIC_API_KEY=${ANTHROPIC_API_KEY}
- OPENAI_API_KEY=${OPENAI_API_KEY}
volumes:
- ./litellm_config.yaml:/app/config.yaml
이제 스택에 있는 모든 앱 — n8n, Open WebUI, 스크립트 — 이 http://litellm:4000을 가리키며, 단일 설정 파일을 편집하여 모델을 전환할 수 있습니다.
ChromaDB + LlamaIndex — 프라이빗 RAG
AI로 자체 문서를 검색합니다. 모두 로컬이며, 완전히 프라이빗합니다.
from llama_index.core import VectorStoreIndex, SimpleDirectoryReader
from llama_index.vector_stores.chroma import ChromaVectorStore
import chromadb
# Index your documents
docs = SimpleDirectoryReader('/your/docs/folder').load_data()
db = chromadb.PersistentClient(path='./chroma_db')
collection = db.get_or_create_collection('my_docs')
store = ChromaVectorStore(chroma_collection=collection)
# Query them
index = VectorStoreIndex.from_documents(docs, vector_store=store)
engine = index.as_query_engine()
response = engine.query('What did we decide about the API architecture?')
print(response)
하드웨어 질문
GPU 서버 vs. Apple Silicon?
2026년, 순수 AI 추론을 홈랩 규모로 할 때 Apple Silicon이 가성비에서 승리한다.
| 장치 | 일반적인 성능 | 장점 | 단점 |
|---|---|---|---|
| M4 Mac mini (24 GB, 약 $800) | 32 B 모델 @ 10‑15 토큰 / 초 | 무음, 유휴 시 30 W, 별도 GPU 없음, macOS = 손쉬운 관리 | Apple 생태계에 제한됨 |
| NVIDIA RTX 4090 서버 (24 GB VRAM) | 대용량 배치에서 더 빠르고, 파인튜닝에 적합 | 뛰어난 원시 처리량, 학습에 적합 | 시끄럽고, 부하 시 450 W, Linux 전용, 비용 높음 |
- 동시 사용자 1‑5명 (텍스트 작업) 홈랩: Mac mini M4.
- 심각한 추론 처리량 또는 학습: GPU 서버.
모니터링 스택
AI 서비스를 언제 중단되는지 모른 채 실행하지 마세요.
- Uptime Kuma – Ollama, n8n, Open WebUI 등 의 상태 확인.
- Netdata – 컨테이너별 리소스 사용량.
- Loki + Grafana – 모든 컨테이너의 로그를 집계.
# Example snippet for log collection (docker‑compose)
labels:
- logging=promtail
- logging_jobname=containerlogs
새 서버에서 먼저 설정할 것
순서대로, 처음부터 시작한다면:
- Traefik – 역방향 프록시 + 자동 HTTPS (다른 모든 것은 그 뒤에 위치).
- Ollama – 먼저
qwen2.5:14b를 풀하고, 필요에 따라 다른 모델을 추가. - Open WebUI – 모델과 채팅하기 위한 UI.
- n8n – 자동화 워크플로.
- LiteLLM – 통합 API 엔드포인트.
- ChromaDB + LlamaIndex – 프라이빗 RAG.
- Whisper.cpp – 로컬 전사.
- Monitoring stack – Uptime Kuma, Netdata, Loki + Grafana.
이것이 2026년에 많은 셀프‑호스팅 사용자들이 실제로 사용하고 있는 실전 검증 스택입니다. 즐거운 구축 되세요!
즉시 사용 가능한 인터페이스
- n8n — 자동화 엔진
- LiteLLM — 통합 API 프록시
- Uptime Kuma — 모니터링
- Vaultwarden — 비밀번호 관리자 (필요합니다)
대부분의 사람들이 놓치는 한 가지
모델을 로컬에서 실행하는 것만으로는 절반의 가치만 얻을 수 있습니다.
나머지 절반은 실제 워크플로우와 연결하는 것—예를 들어 이메일, 캘린더, 코드베이스, 문서 등과 연결하는 것입니다. 채팅 창에서 질문에 답해 주는 로컬 LLM은 매우 느리지만 사설 버전의 ChatGPT와 다를 바 없습니다.
n8n에 연결된 로컬 LLM이 자동으로 이메일을 분류하고, 서버를 모니터링하며, 메모를 요약한다면—그것이 실제적인 활용도입니다.
SIGNAL은 매주 발행됩니다. 더 실용적인 빌더 콘텐츠를 원한다면 @signal-weekly를 팔로우하세요.
다음: AI 에이전트를 사용해 홈랩 운영의 지루한 부분을 자동화하는 방법 — 구체적인 n8n 워크플로우와 작동 코드.