온프레미스 vs. 프록시 — 민감한 데이터를 유출하지 않고 LLM 배포하는 방법
Source: Dev.to

귀하의 SOC 2 인증은 공급업체의 인프라를 포함합니다—사용자가 프롬프트에 붙여넣는 데이터는 포함되지 않습니다. 클라이언트 데이터가 클라우드 모델로 전송되는 순간, 책임은 귀하에게 있습니다. 해결책은 아키텍처에 있습니다.
아래는 세 가지 배포 옵션과 각각을 언제 사용해야 하는지에 대한 가이드입니다.
온‑프레미스
모델이 자체 하드웨어에서 실행됩니다. 네트워크를 떠나는 데이터가 없으며, 에어‑갭 요구사항 및 엄격한 데이터‑거주 규정을 충족합니다.
사용 시기
- 에어‑갭 또는 엄격한 거주 규정이 적용될 때
- 정부, 국방, 혹은 정보기관 데이터가 포함될 때
- 하루에 > 2 M 토큰을 처리하여 인프라 총소유비용(TCO)이 API 비용과 경쟁할 때
현실 검토
- 선투자 비용: $80 K – $250 K+
- 프로덕션까지 소요 시간: 3 – 6 개월
- 운영 인력: 0.5 – 1 FTE DevOps
- 하드웨어 교체 주기: 매 3 – 4 년
자체 하드웨어에서 OpenAI‑호환 엔드포인트
python -m vllm.entrypoints.openai.api_server \
--model meta-llama/Llama-4-Scout-17B-16E-Instruct \
--host 0.0.0.0 --port 8000 --tensor-parallel-size 4
프록시 / 게이트웨이
모델은 클라우드에 머물지만, 중앙 게이트웨이가 control plane을 제어합니다. 모든 요청은 게이트웨이를 거쳐 PII가 마스킹되고, 접근이 강제되며, 상호작용이 기록된 후 클라우드 모델에 도달합니다.
사용 시기
- 거버넌스 없이 AI를 사용하는 직원(Shadow AI)이 주요 위험인 경우
- 이번 분기에 거버넌스가 필요하고 내년이 아니라
- CAPEX보다 OPEX를 선호하는 경우
좋은 옵션
| Solution | Type | Highlights |
|---|---|---|
| LiteLLM | 오픈소스 | 내장된 Presidio PII 가드레일, 100개 이상의 제공자 |
| Portkey | 관리형 | 분석, 폴백 라우팅 |
| Kong AI Gateway | 엔터프라이즈 | 전체 기능 API 레이어 |
LiteLLM PII 가드레일 (litellm_config.yaml)
guardrails:
guardrail_name: pii-masking
litellm_params:
# add your provider‑specific parameters here
Hybrid — Local Redaction + Cloud Inference
민감한 데이터는 로컬에서 마스킹된 뒤, 익명화된 텍스트가 클라우드 모델로 전송됩니다. 이를 통해 레지던시 요구사항을 위반하지 않으면서 최첨단 모델 품질을 제공할 수 있으며, 이는 많은 규제 대상 기업에서 채택하고 있는 패턴입니다.
- Local Presidio agent가 인프라를 떠나기 전에 모든 데이터를 익명화합니다.
- LLM Gateway가 RBAC를 적용하고 모든 상호작용을 로그에 기록합니다.
- Cloud model이 정제되고 익명화된 텍스트를 처리하며, PII를 절대 보지 않습니다.
Presidio configuration (모델이 프롬프트를 보기 전에 마스킹)
mode: pre_call # redact BEFORE model sees prompt
한눈에 보기
| 기능 | 온‑프레미스 | 프록시 / 게이트웨이 | 하이브리드 |
|---|---|---|---|
| 데이터가 외부로 나가나요? | 절대 안 함 | 익명화만 | 익명화만 |
| 에어갭 안전한가요? | 예 | 아니오 | 아니오 |
| 설정 시간 | 3 ~ 6 개월 | 2 ~ 6 주 | 4 ~ 10 주 |
| 비용 | $80 K – $250 K+ | 낮음 (소프트웨어) | 중간 |
| 프런티어 모델? | 아니오 | 예 | 예 |
| 가장 적합한 경우 | 엄격한 데이터 거주 | 섀도우 AI / 거버넌스 | 규제된 + 클라우드 |
추가 읽을거리
- 전체 의사결정 프레임워크 및 인프라 사양: LinkedIn Pulse
- 리더십/컴플라이언스 버전: Substack
- 전체 코드가 포함된 기술 심층 분석: Hashnode