Open Source vs Proprietary LLMs: 실제 비용 분석

발행: (2026년 2월 19일 오후 09:35 GMT+9)
7 분 소요
원문: Dev.to

Source: Dev.to

(번역할 텍스트를 제공해 주시면 한국어로 번역해 드리겠습니다.)

TL;DR

  • 월 1 B 토큰 이하 – 독점 API만 사용하세요.
  • 월 1 – 10 B 토큰 – 호스팅된 오픈‑소스 API(예: Together.ai, Groq)가 보통 가장 저렴합니다.
  • 월 10 B 토큰 이상 – 자체 호스팅이 유리할 수 있지만, 이미 MLOps 팀이 있는 경우에만 가능합니다.

“오픈 소스는 무료다”는 이야기는 연간 $300 K – $600 K의 엔지니어링 비용을 무시합니다.

가격은 빠르게 변합니다. 아래 수치는 2026년 2월 현재 기준이며, 1 M 토큰(입력 / 출력)당 인용된 가격입니다.

호스티드‑API 가격 (1 M 토큰당)

모델제공자입력출력비고
Llama 4 MaverickTogether.ai$0.27$0.85
Llama 4 MaverickGroq$0.20$0.60562 tok/s
GPT‑OSS‑120BTogether.ai / Fireworks / Groq$0.15$0.60
GPT‑OSS‑20BTogether.ai$0.05$0.20“특가 티어”
DeepSeek V3.1Together.ai$0.60$1.70
Qwen3‑235BTogether.ai$0.20$0.60
Mistral Small 3Together.ai$0.10$0.30

Proprietary‑API Pricing (per 1 M tokens)

모델입력출력출처
GPT‑5.2$1.75$14.00OpenAI
GPT‑5 mini$0.25$2.00OpenAI
Claude Opus 4.6$5.00$25.00Anthropic
Claude Sonnet 4.6$3.00$15.00Anthropic
Gemini 2.5 Flash$0.30$2.5Google

간단한 관찰

  • GPT‑OSS‑120B$0.15 입력 가격으로 ≈ 11배 더 저렴합니다(입력 측면에서 GPT‑5.2 대비).
  • GPT‑5 miniGemini 2.5 Flash는 독점 가격이 오픈소스 호스팅 요금에 놀라울 정도로 근접하는 중간 지대에 위치합니다.

월별 추세에 대한 자세한 분석은 원문 기사에 있는 전체 가격 비교 링크를 참고하세요.

실제 의사결정 공간

옵션설명
1️⃣ Proprietary APIOpenAI, Anthropic, 또는 Google에 직접 비용을 지불합니다.
2️⃣ Hosted open‑source APITogether.ai, Groq, 또는 Fireworks에 비용을 지불해 오픈 모델을 대신 실행하게 합니다.
3️⃣ Self‑hosted open sourceGPU를 임대하고 모델을 직접 실행합니다.

옵션 2는 종종 간과됩니다. 이는 운영 부담 없이 오픈 가중치의 유연성을 제공하여 대부분의 기업에 이상적인 지점입니다.

옵션 3은 이론적으로는 매력적이지만, 실제로는 기술 결정으로 가장한 인력(인재) 결정입니다.

Source:

비용 비교: GPT‑OSS‑120B (Together.ai) vs. 자체 호스팅

가정

  • 호스팅 가격: $0.15 / $0.60 (입력 / 출력) – Together.ai 이용.
  • 자체 호스팅 하드웨어: Lambda Labs H100$2.99 / 시간 (≈ $2,183 / 월) 에서 사용.
  • 70 B 모델을 실행하는 단일 H100은 약 50 토큰 / 초 → ≈ 130 M 토큰 / 월.
규모 (토큰/월)Together.ai 비용자체 호스팅 비용*승자
10 M~ $4.50$2,183 + 엔지니어링 오버헤드API (압도적)
100 M~ $45$2,183 + 엔지니어링 오버헤드API
1 B~ $450$2,183 + 엔지니어링 오버헤드컴퓨팅 비용은 비슷하지만 전체 비용에서는 API가 유리
10 B~ $4,500~ $17 K 컴퓨팅 (8 × H100) + 엔지니어링 오버헤드팀 상황에 따라 다름

*컴퓨팅만 고려했을 때 전환점은 1 – 2 B 토큰/월 정도이며, 엔지니어링 오버헤드 때문에 손익분기점은 더 높아집니다.

클라우드‑GPU 가격 영향

제공업체인스턴스시간당 비용비고
AWSH100 (온‑디맨드)~$3.90 / hrLambda Labs보다 비쌈
AWSH100 (예약)$1.85 / hr1년 약정 필요
FireworksH200$6.00 / hr달러당 더 높은 처리량
FireworksB200$9.00 / hr처리량은 더 높지만 비용도 높음

예약 인스턴스를 사용하더라도 대부분의 워크로드에서는 여전히 API가 경제적으로 유리합니다.

Self‑hosting의 숨은 비용

  • MLOps 팀: $300 K – $600 K / yr (2 – 4명 엔지니어).
  • 운영 오버헤드: 모니터링, 알림, 모델 버전 관리, 롤백 절차, GPU 활용도 튜닝 (30 % – 50 % 낭비), 보안 패치, 규정 준수 감사, 온‑콜 로테이션.
  • 업그레이드 러닝머신: 새로운 모델 릴리스 → 평가 재실행, 재튜닝, 재배포. API를 사용하면 모델 문자열만 바꾸면 된다.

이러한 비용은 단순 $/token 계산에는 절대 나타나지 않지만 실제 예산 항목이다.

자체 호스팅이 의미가 있을 때

  1. 컴플라이언스 및 데이터 주권 – 의료, 금융 등 데이터가 온‑프레미스에 있어야 하는 규제 산업(HIPAA, GDPR). BAA 협상이 필요 없고, 제공업체의 컴플라이언스 주장에 의존하지 않음.
  2. 에어‑갭 환경 – 국방, 특정 정부 기관, 외부 API에 데이터를 전송할 수 없는 일부 금융 기관.
  3. 대규모 파인튜닝
    • OpenAI의 GPT‑4.1 파인튜닝: $25 / M 토큰.
    • Open
0 조회
Back to Blog

관련 글

더 보기 »