Open Source vs Proprietary LLMs: 실제 비용 분석

발행: 3시간 전 (2026년 2월 19일 오후 09:35 GMT+9)

7 분 소요

원문: Dev.to

Source: Dev.to

(번역할 텍스트를 제공해 주시면 한국어로 번역해 드리겠습니다.)

TL;DR

월 1 B 토큰 이하 – 독점 API만 사용하세요.
월 1 – 10 B 토큰 – 호스팅된 오픈‑소스 API(예: Together.ai, Groq)가 보통 가장 저렴합니다.
월 10 B 토큰 이상 – 자체 호스팅이 유리할 수 있지만, 이미 MLOps 팀이 있는 경우에만 가능합니다.

“오픈 소스는 무료다”는 이야기는 연간 $300 K – $600 K의 엔지니어링 비용을 무시합니다.

가격은 빠르게 변합니다. 아래 수치는 2026년 2월 현재 기준이며, 1 M 토큰(입력 / 출력)당 인용된 가격입니다.

호스티드‑API 가격 (1 M 토큰당)

모델	제공자	입력	출력	비고
Llama 4 Maverick	Together.ai	$0.27	$0.85
Llama 4 Maverick	Groq	$0.20	$0.60	562 tok/s
GPT‑OSS‑120B	Together.ai / Fireworks / Groq	$0.15	$0.60
GPT‑OSS‑20B	Together.ai	$0.05	$0.20	“특가 티어”
DeepSeek V3.1	Together.ai	$0.60	$1.70
Qwen3‑235B	Together.ai	$0.20	$0.60
Mistral Small 3	Together.ai	$0.10	$0.30

Proprietary‑API Pricing (per 1 M tokens)

모델	입력	출력	출처
GPT‑5.2	$1.75	$14.00	OpenAI
GPT‑5 mini	$0.25	$2.00	OpenAI
Claude Opus 4.6	$5.00	$25.00	Anthropic
Claude Sonnet 4.6	$3.00	$15.00	Anthropic
Gemini 2.5 Flash	$0.30	$2.5	Google

간단한 관찰

GPT‑OSS‑120B가 $0.15 입력 가격으로 ≈ 11배 더 저렴합니다(입력 측면에서 GPT‑5.2 대비).
GPT‑5 mini와 Gemini 2.5 Flash는 독점 가격이 오픈소스 호스팅 요금에 놀라울 정도로 근접하는 중간 지대에 위치합니다.

월별 추세에 대한 자세한 분석은 원문 기사에 있는 전체 가격 비교 링크를 참고하세요.

실제 의사결정 공간

옵션	설명
1️⃣ Proprietary API	OpenAI, Anthropic, 또는 Google에 직접 비용을 지불합니다.
2️⃣ Hosted open‑source API	Together.ai, Groq, 또는 Fireworks에 비용을 지불해 오픈 모델을 대신 실행하게 합니다.
3️⃣ Self‑hosted open source	GPU를 임대하고 모델을 직접 실행합니다.

옵션 2는 종종 간과됩니다. 이는 운영 부담 없이 오픈 가중치의 유연성을 제공하여 대부분의 기업에 이상적인 지점입니다.

옵션 3은 이론적으로는 매력적이지만, 실제로는 기술 결정으로 가장한 인력(인재) 결정입니다.

Source: …

비용 비교: GPT‑OSS‑120B (Together.ai) vs. 자체 호스팅

가정

호스팅 가격: $0.15 / $0.60 (입력 / 출력) – Together.ai 이용.
자체 호스팅 하드웨어: Lambda Labs H100 를 $2.99 / 시간 (≈ $2,183 / 월) 에서 사용.
70 B 모델을 실행하는 단일 H100은 약 50 토큰 / 초 → ≈ 130 M 토큰 / 월.

규모 (토큰/월)	Together.ai 비용	자체 호스팅 비용*	승자
10 M	~ $4.50	$2,183 + 엔지니어링 오버헤드	API (압도적)
100 M	~ $45	$2,183 + 엔지니어링 오버헤드	API
1 B	~ $450	$2,183 + 엔지니어링 오버헤드	컴퓨팅 비용은 비슷하지만 전체 비용에서는 API가 유리
10 B	~ $4,500	~ $17 K 컴퓨팅 (8 × H100) + 엔지니어링 오버헤드	팀 상황에 따라 다름

*컴퓨팅만 고려했을 때 전환점은 1 – 2 B 토큰/월 정도이며, 엔지니어링 오버헤드 때문에 손익분기점은 더 높아집니다.

클라우드‑GPU 가격 영향

제공업체	인스턴스	시간당 비용	비고
AWS	H100 (온‑디맨드)	~$3.90 / hr	Lambda Labs보다 비쌈
AWS	H100 (예약)	$1.85 / hr	1년 약정 필요
Fireworks	H200	$6.00 / hr	달러당 더 높은 처리량
Fireworks	B200	$9.00 / hr	처리량은 더 높지만 비용도 높음

예약 인스턴스를 사용하더라도 대부분의 워크로드에서는 여전히 API가 경제적으로 유리합니다.

Self‑hosting의 숨은 비용

MLOps 팀: $300 K – $600 K / yr (2 – 4명 엔지니어).
운영 오버헤드: 모니터링, 알림, 모델 버전 관리, 롤백 절차, GPU 활용도 튜닝 (30 % – 50 % 낭비), 보안 패치, 규정 준수 감사, 온‑콜 로테이션.
업그레이드 러닝머신: 새로운 모델 릴리스 → 평가 재실행, 재튜닝, 재배포. API를 사용하면 모델 문자열만 바꾸면 된다.

이러한 비용은 단순 $/token 계산에는 절대 나타나지 않지만 실제 예산 항목이다.

자체 호스팅이 의미가 있을 때

컴플라이언스 및 데이터 주권 – 의료, 금융 등 데이터가 온‑프레미스에 있어야 하는 규제 산업(HIPAA, GDPR). BAA 협상이 필요 없고, 제공업체의 컴플라이언스 주장에 의존하지 않음.
에어‑갭 환경 – 국방, 특정 정부 기관, 외부 API에 데이터를 전송할 수 없는 일부 금융 기관.
대규모 파인튜닝
- OpenAI의 GPT‑4.1 파인튜닝: $25 / M 토큰.
- Open

Open Source vs Proprietary LLMs: 실제 비용 분석

TL;DR

호스티드‑API 가격 (1 M 토큰당)

Proprietary‑API Pricing (per 1 M tokens)

간단한 관찰

실제 의사결정 공간

비용 비교: GPT‑OSS‑120B (Together.ai) vs. 자체 호스팅

클라우드‑GPU 가격 영향

Self‑hosting의 숨은 비용

자체 호스팅이 의미가 있을 때

관련 글

Google Workspace Studio 시작 방법을 확인해 보세요

나는 물건을 만드는 물건을 만들었다: Tres Comas Scrum

해결: CISA 대행 국장이 polygraph에서 실패. 정규 직원들 조사 중.

Nautilus Trader: 고성능 알고리즘 트레이딩 플랫폼 & 이벤트 기반 백테스터

TL;DR

호스티드‑API 가격 (1 M 토큰당)

Proprietary‑API Pricing (per 1 M tokens)

간단한 관찰

실제 의사결정 공간

비용 비교: GPT‑OSS‑120B (Together.ai) vs. 자체 호스팅

클라우드‑GPU 가격 영향

Self‑hosting의 숨은 비용

자체 호스팅이 의미가 있을 때

관련 글

Google Workspace Studio 시작 방법을 확인해 보세요

나는 물건을 만드는 물건을 만들었다: Tres Comas Scrum

해결: CISA 대행 국장이 polygraph에서 실패. 정규 직원들 조사 중.

Nautilus Trader: 고성능 알고리즘 트레이딩 플랫폼 & 이벤트 기반 백테스터

호스티드‑API 가격 (1 M 토큰당)

Proprietary‑API Pricing (per 1 M tokens)