2026년 2월 LLM 가격: 각 모델이 실제로 드는 비용
I’m happy to translate the text for you, but I don’t see the article content—only the source line you provided. Could you please paste the text (or the portion you’d like translated) here? I’ll keep the source link unchanged and preserve all formatting, markdown, and code blocks as requested.
TL;DR
가장 저렴한 옵션: OpenAI의 오픈‑소스 GPT‑OSS‑20B는 $0.05 /M 입력.
가성비 최고: GPT‑5 mini는 $0.25 /M 입력.
가장 비싼 옵션: Grok‑4는 $30 /M 입력 (≈ GPT‑OSS‑20B 비용의 600배).
Pricing Table (All prices per million tokens)
| Model | Provider | Input | Output | Notes |
|---|---|---|---|---|
| GPT‑5.2 | OpenAI | $1.75 | $14.00 | 주력 모델, 전반적인 품질 최고 |
| GPT‑5 mini | OpenAI | $0.25 | $2.00 | 가격 대비 성능 비율 최고 |
| GPT‑4.1 | OpenAI | $2.00 | $8.00 | 여전히 널리 배포됨 |
| GPT‑4.1 nano | OpenAI | $0.10 | $0.40 | 가장 저렴한 OpenAI 옵션 |
| o4‑mini | OpenAI | $1.10 | $4.40 | 추론 모델 |
| Claude Opus 4.6 | Anthropic | $5.00 | $25.00 | 최고 수준의 추론 및 코딩 |
| Claude Sonnet 4.6 | Anthropic | $3.00 | $15.00 | 주력 모델 |
| Claude Haiku 4.5 | Anthropic | $1.00 | $5.00 | 빠르고 저렴함 |
| GPT‑OSS‑120B | OpenAI (open‑source) | $0.15 | $0.60 | 오픈 웨이트, 호스팅 API를 통해 제공 |
| GPT‑OSS‑20B | OpenAI (open‑source) | $0.05 | $0.20 | 가장 작은 오픈 웨이트 옵션 |
| Gemini 2.5 Flash | $0.30 | $2.50 | 긴 컨텍스트에 강함 | |
| Gemini 2.0 Flash | $0.10 | $0.40 | 예산 친화적 등급 | |
| Llama 4 Maverick | Meta (via API) | $0.27 | $0.85 | 오픈 웨이트, 자체 호스팅 가능 |
| DeepSeek V3.1 | DeepSeek | $0.60 | $1.70 | 중국 연구소, 놀라울 정도로 강력함 |
| Grok‑4 | xAI | $30.00 | $150.00 | 시장에서 가장 비싼 모델 |
| Grok‑4‑fast | xAI | $2.00 | $5.00 | xAI의 중간 등급 |
| Grok‑3 | xAI | $30.00 | $150.00 | 이전 세대, Grok‑4와 동일한 가격 |
| Grok‑3‑mini | xAI | $3.00 | $5.00 | 예산 친화적 추론 |
출처: OpenAI 가격, Anthropic 모델, Google AI 가격, xAI 가격, DeepSeek 가격, Together.ai, 오픈‑소스 모델 호스팅을 위한 Groq (2026년 2월 19일 확인).
핵심 요약
- 입력 vs. 출력 비용: 모든 제공업체에서 출력 토큰 비용이 입력보다 3–8배 더 많이 듭니다. 긴 응답을 생성하는 앱에서는 출력 비용이 청구서의 대부분을 차지합니다.
- 캐싱: OpenAI와 Anthropic은 프롬프트‑캐싱을 제공하여 반복 컨텍스트 비용을 50–90 % 절감할 수 있습니다.
- 품질 격차 감소: GPT‑5 mini, Claude Sonnet 4, 그리고 Gemini 2.5 Flash가 이제 대부분의 작업에서 서로 근접하게 경쟁합니다. 프리미엄 모델(GPT‑5.2, Opus 4)은 여전히 복잡한 추론 및 장문 분석에서 우위에 있습니다.
- 지연 시간 중요: 지연 시간이 높은 저렴한 모델은 응답이 빠른 2배 비싼 모델보다 사용자 이탈 비용이 더 클 수 있습니다. 비용과 함께 지연 시간을 벤치마크하세요.
- 셀프 호스팅 장점: 오픈 웨이트 모델(예: Llama 4 Maverick)은 GPU에서 자체 호스팅 시 효과적인 입력 비용을 $0.10 /M 이하로 낮출 수 있어 월 10 B 토큰 이상 워크로드에 매력적입니다.
사용 사례별 권장 모델
| 사용 사례 | 권장 모델 | 이유 |
|---|---|---|
| 대량 생산 (챗봇, 분류, 추출) | GPT‑5 mini or Gemini 2.0 Flash | < $0.50 /M 입력, 견고한 품질 |
| 코드 생성 | Claude Sonnet 4 or GPT‑5.2 | Sonnet은 복잡한 코딩 지시에서 뛰어남; GPT‑5.2는 다중 파일 리팩터링을 처리 |
| 연구 및 분석 | Claude Opus 4.6 (예산 허용 시) or GPT‑5.2 | Opus 4.6은 최고 수준의 추론 제공; GPT‑5.2는 강력한 대안 |
| 비용에 민감한 스타트업 | Llama 4 Maverick (자체 호스팅) or GPT‑4.1 nano (API) | 최소 비용으로 허용 가능한 품질 유지 |
| 예산 우선 실험 | GPT‑OSS‑20B | 입력당 $0.05로 가장 저렴한 오픈 웨이트 옵션 |
전망
- 가격 추세: 동등한 품질의 가격이 지난 3년간 연간 약 10배 감소했습니다. 2026년 4분기까지 GPT‑5 미니 수준의 품질을 입력당 ≤ $0.05 로 기대할 수 있습니다.
- 인프라 전환: 맞춤형 실리콘(구글 TPU, 아마존 Trainium, 마이크로소프트 Maia)이 엔비디아 GPU 경제성을 앞서기 시작했습니다. 이러한 규모가 확대되면 호스팅 API 가격이 자체 호스팅 비용보다 더 빠르게 하락할 수 있어, 중간 규모 기업의 구축‑대‑구매 결정이 뒤바뀔 가능성이 있습니다.