Open Source vs Proprietary LLMs: 실제 비용 분석
Source: Dev.to
(번역할 텍스트를 제공해 주시면 한국어로 번역해 드리겠습니다.)
TL;DR
- 월 1 B 토큰 이하 – 독점 API만 사용하세요.
- 월 1 – 10 B 토큰 – 호스팅된 오픈‑소스 API(예: Together.ai, Groq)가 보통 가장 저렴합니다.
- 월 10 B 토큰 이상 – 자체 호스팅이 유리할 수 있지만, 이미 MLOps 팀이 있는 경우에만 가능합니다.
“오픈 소스는 무료다”는 이야기는 연간 $300 K – $600 K의 엔지니어링 비용을 무시합니다.
가격은 빠르게 변합니다. 아래 수치는 2026년 2월 현재 기준이며, 1 M 토큰(입력 / 출력)당 인용된 가격입니다.
호스티드‑API 가격 (1 M 토큰당)
| 모델 | 제공자 | 입력 | 출력 | 비고 |
|---|---|---|---|---|
| Llama 4 Maverick | Together.ai | $0.27 | $0.85 | |
| Llama 4 Maverick | Groq | $0.20 | $0.60 | 562 tok/s |
| GPT‑OSS‑120B | Together.ai / Fireworks / Groq | $0.15 | $0.60 | |
| GPT‑OSS‑20B | Together.ai | $0.05 | $0.20 | “특가 티어” |
| DeepSeek V3.1 | Together.ai | $0.60 | $1.70 | |
| Qwen3‑235B | Together.ai | $0.20 | $0.60 | |
| Mistral Small 3 | Together.ai | $0.10 | $0.30 |
Proprietary‑API Pricing (per 1 M tokens)
| 모델 | 입력 | 출력 | 출처 |
|---|---|---|---|
| GPT‑5.2 | $1.75 | $14.00 | OpenAI |
| GPT‑5 mini | $0.25 | $2.00 | OpenAI |
| Claude Opus 4.6 | $5.00 | $25.00 | Anthropic |
| Claude Sonnet 4.6 | $3.00 | $15.00 | Anthropic |
| Gemini 2.5 Flash | $0.30 | $2.5 |
간단한 관찰
- GPT‑OSS‑120B가 $0.15 입력 가격으로 ≈ 11배 더 저렴합니다(입력 측면에서 GPT‑5.2 대비).
- GPT‑5 mini와 Gemini 2.5 Flash는 독점 가격이 오픈소스 호스팅 요금에 놀라울 정도로 근접하는 중간 지대에 위치합니다.
월별 추세에 대한 자세한 분석은 원문 기사에 있는 전체 가격 비교 링크를 참고하세요.
실제 의사결정 공간
| 옵션 | 설명 |
|---|---|
| 1️⃣ Proprietary API | OpenAI, Anthropic, 또는 Google에 직접 비용을 지불합니다. |
| 2️⃣ Hosted open‑source API | Together.ai, Groq, 또는 Fireworks에 비용을 지불해 오픈 모델을 대신 실행하게 합니다. |
| 3️⃣ Self‑hosted open source | GPU를 임대하고 모델을 직접 실행합니다. |
옵션 2는 종종 간과됩니다. 이는 운영 부담 없이 오픈 가중치의 유연성을 제공하여 대부분의 기업에 이상적인 지점입니다.
옵션 3은 이론적으로는 매력적이지만, 실제로는 기술 결정으로 가장한 인력(인재) 결정입니다.
Source: …
비용 비교: GPT‑OSS‑120B (Together.ai) vs. 자체 호스팅
가정
- 호스팅 가격: $0.15 / $0.60 (입력 / 출력) – Together.ai 이용.
- 자체 호스팅 하드웨어: Lambda Labs H100 를 $2.99 / 시간 (≈ $2,183 / 월) 에서 사용.
- 70 B 모델을 실행하는 단일 H100은 약 50 토큰 / 초 → ≈ 130 M 토큰 / 월.
| 규모 (토큰/월) | Together.ai 비용 | 자체 호스팅 비용* | 승자 |
|---|---|---|---|
| 10 M | ~ $4.50 | $2,183 + 엔지니어링 오버헤드 | API (압도적) |
| 100 M | ~ $45 | $2,183 + 엔지니어링 오버헤드 | API |
| 1 B | ~ $450 | $2,183 + 엔지니어링 오버헤드 | 컴퓨팅 비용은 비슷하지만 전체 비용에서는 API가 유리 |
| 10 B | ~ $4,500 | ~ $17 K 컴퓨팅 (8 × H100) + 엔지니어링 오버헤드 | 팀 상황에 따라 다름 |
*컴퓨팅만 고려했을 때 전환점은 1 – 2 B 토큰/월 정도이며, 엔지니어링 오버헤드 때문에 손익분기점은 더 높아집니다.
클라우드‑GPU 가격 영향
| 제공업체 | 인스턴스 | 시간당 비용 | 비고 |
|---|---|---|---|
| AWS | H100 (온‑디맨드) | ~$3.90 / hr | Lambda Labs보다 비쌈 |
| AWS | H100 (예약) | $1.85 / hr | 1년 약정 필요 |
| Fireworks | H200 | $6.00 / hr | 달러당 더 높은 처리량 |
| Fireworks | B200 | $9.00 / hr | 처리량은 더 높지만 비용도 높음 |
예약 인스턴스를 사용하더라도 대부분의 워크로드에서는 여전히 API가 경제적으로 유리합니다.
Self‑hosting의 숨은 비용
- MLOps 팀: $300 K – $600 K / yr (2 – 4명 엔지니어).
- 운영 오버헤드: 모니터링, 알림, 모델 버전 관리, 롤백 절차, GPU 활용도 튜닝 (30 % – 50 % 낭비), 보안 패치, 규정 준수 감사, 온‑콜 로테이션.
- 업그레이드 러닝머신: 새로운 모델 릴리스 → 평가 재실행, 재튜닝, 재배포. API를 사용하면 모델 문자열만 바꾸면 된다.
이러한 비용은 단순 $/token 계산에는 절대 나타나지 않지만 실제 예산 항목이다.
자체 호스팅이 의미가 있을 때
- 컴플라이언스 및 데이터 주권 – 의료, 금융 등 데이터가 온‑프레미스에 있어야 하는 규제 산업(HIPAA, GDPR). BAA 협상이 필요 없고, 제공업체의 컴플라이언스 주장에 의존하지 않음.
- 에어‑갭 환경 – 국방, 특정 정부 기관, 외부 API에 데이터를 전송할 수 없는 일부 금융 기관.
- 대규모 파인튜닝
- OpenAI의 GPT‑4.1 파인튜닝: $25 / M 토큰.
- Open