AI 모델 가격이 엉망이다 — 우리가 추적하는 방법
Source: Dev.to
오늘날 상업용 API를 통해 이용할 수 있는 LLM 모델은 100개가 넘습니다. 가격은 끊임없이 변동합니다—때로는 일주일에 여러 번씩. 새로운 모델이 출시되고, 오래된 모델은 폐기되며, 제공업체는 조용히 요금을 조정합니다.
LLM을 활용하고 있다면, 다음과 같은 상황을 겪어봤을 것입니다: 모델을 선택하고, 코드를 하드코딩한 뒤 배포했는데, 3개월 뒤에 같은 품질을 제공하는 최신 모델에 비해 10배 더 비용을 지불하고 있다는 사실을 알게 됩니다.
우리는 WhichModel을 만들어 이 문제를 해결했습니다.
문제의 규모
- 10개 이상의 제공업체가 각각 다른 가격 페이지, 형식, 업데이트 주기를 가지고 있음
- 100개 이상의 모델이 서로 다른 입력/출력/캐시 토큰 요금을 가짐
- 기능 매트릭스가 모델 업데이트마다 변함 (비전, 툴 호출, JSON 모드, 컨텍스트 윈도우)
- 품질 등급이 가격과 깔끔하게 매핑되지 않음 — $0.60 / M‑token 모델이 특정 작업에서는 $15 / M‑token 모델보다 더 나은 성능을 보일 수 있음
대부분의 팀은 이를 별도로 관리하지 않고 해결합니다. 모델을 하나 혹은 두 개 선택하고, 분기별(가능하면) 다시 검토합니다.
우리가 추적하는 방법
WhichModel은 주요 LLM 제공업체마다 4시간마다 가격 데이터를 스크래핑하고, 정규화하며, 교차 검증합니다.
다중 소스 검증
단일 소스를 신뢰하지 않습니다. 가격 데이터는 제공업체 API, 문서 페이지, 서드파티 집계자를 통해 교차 확인합니다. 소스 간에 불일치가 있으면 플래그를 표시합니다.
구조화된 기능 추적
각 모델에 대해 다음을 추적합니다:
- 입력, 출력, 캐시 토큰 가격
- 컨텍스트 윈도우 크기
- 지원 기능 (툴 호출, JSON 출력, 스트리밍, 비전)
- 제공업체 및 가용성
MCP‑Native 접근
데이터는 MCP 서버 형태로 제공됩니다 — 즉, 어떤 AI 에이전트도 네이티브하게 쿼리할 수 있습니다. 학습할 REST API도, 설치할 SDK도 없습니다:
- 한 줄 설정만 하면 됩니다. API 키도 필요 없습니다. 실시간 가격 데이터 제공.
에이전트는 다음과 같이 물을 수 있습니다:
- “툴 호출을 지원하고 최소 128K 컨텍스트를 가진 가장 저렴한 모델은 무엇인가요?”
- “코드 생성 작업을 10K 호출/일 기준으로 Claude Sonnet 4와 GPT‑4.1을 비교해 주세요”
- “호출당 $0.002 이하인 데이터 추출 모델을 추천해 주세요”
우리가 배운 점
가격이 대부분 작업의 품질과 상관관계가 없습니다.
$0.60 / M‑token 모델이 생산 작업의 약 80 %를 $15 / M‑token 모델만큼 잘 수행합니다. 남은 20 %에 대해서만 차이가 의미 있습니다.가격 변동이 생각보다 잦습니다.
의미 있는 가격 업데이트가 생태계 전반에 걸쳐 주당 여러 차례 발생합니다. 지난달에 맞았던 것이 오늘은 틀릴 수 있습니다.‘최고 모델만 사용’ 접근법은 규모가 커질수록 비용이 많이 듭니다.
하루 10 K 호출 기준으로 $15 / M‑token 모델과 $0.60 / M‑token 모델의 차이는 하루에 $216, 즉 월 $6 000 이상이 됩니다.에이전트는 스프레드시트가 아닌 실시간 데이터가 필요합니다.
자율 에이전트는 인간 개입 없이 의사결정을 해야 하며, 여기에는 어떤 모델을 사용할지 결정하는 것도 포함됩니다.
사용해 보기
WhichModel은 오픈 소스이며 무료로 사용할 수 있습니다.
- MCP Endpoint:
- GitHub:
- Website:
에이전트를 위해 제작되었습니다. 4시간마다 업데이트됩니다. MIT 라이선스.