백만 토큰당 가격이 당신을 속이고 있다
Source: Dev.to

Introduction
약 9개월 전, 저는 RAG 시스템을 구축하고 있었습니다(모르는 분들을 위해 말하자면, AI 에이전트를 위한 일종의 향상된 메모리 시스템입니다). 에이전시 흐름 중 하나에 의미론적 유사성이 필요했으며, 저는 GPT‑4o를 사용했습니다. 왜냐하면, 그 모델이 OpenAI의 대표 모델이었으니까요. 최고의 모델, 최고의 결과, 맞죠?
그 가정을 실제로 시험해 보기로 했습니다. 몇 일간 체계적인 테스트를 진행한 결과, 당시 GPT‑4.1‑mini라는 모델이 10배 정도 저렴했음에도 불구하고, 그 특정 작업에서 동등하거나 더 나은 결과를 보여주었습니다. 약간이 아니라—눈에 띄게—가장 최신이고 가장 비싼 옵션이 필요하다고 가정했던 작업에서 더 좋은 성능을 보인 것이었습니다.
이 경험은 제가 AI 모델 선택에 대해 생각하던 방식을 뒤흔들었고, 이후 몇 달 동안 왜 이런 현상이 일어나는지와 그 현상이 얼마나 널리 퍼져 있는지에 대해 파고들었습니다.
가격 페이지는 거의 아무것도 알려주지 않는다
모든 AI 제공업체는 백만 토큰당 가격 (입력 토큰, 출력 토큰, 경우에 따라 캐시된 비율)을 공개합니다. 겉보기엔 간단해 보이지만, 실제 운영에서는 두 가지 요소를 무시하기 때문에 거의 의미가 없습니다.
-
토큰화 – 서로 다른 모델은 동일한 입력을 다르게 토큰화합니다. GPT‑5, Claude Sonnet 4.5, Gemini 3.0 Flash 등은 같은 프롬프트에 대해 서로 다른 토큰 수를 산출합니다. 차이가 10‑15 % 정도일 때도 있고, 더 크게 벌어질 때도 있습니다. 따라서 “백만 토큰당 가격”은 처음부터 사과와 오렌지를 비교하는 셈입니다. 한 모델의 백만 토큰이 다른 모델의 백만 토큰과 동일한 작업량을 의미하지 않기 때문입니다.
-
출력량 – 이것이 더 큰 요인입니다. 추론이 많이 필요한 체인‑오브‑쓰(thought) 모델은 많은 토큰을 생성합니다. DeepSeek Reasoner, gpt‑5.2‑pro, Claude Opus 4.6 같은 모델은 문제를 단계별로 생각하면서 많은 토큰을 만들어냅니다. 두 모델에 같은 질문을 했을 때, 한 모델은 200 토큰 답변을, 다른 모델은 3 000 토큰의 추론 과정과 200 토큰 답변을 제공할 수 있습니다. 두 번째 모델이 백만 토큰당 가격은 더 저렴할지라도 실제 작업에서는 5배 더 비용이 들 수 있습니다.
이런 경우를 여러 번 보았습니다. 가격 페이지에서는 “10배 저렴”해 보이는 모델이 실제로는 작업 처리 방식 때문에 더 비싸게 나오기도 하고, 반대로 겉보기엔 비싸 보이지만 토큰을 효율적으로 사용해 작업당 비용이 더 낮은 모델도 존재합니다.
왜 일반적인 벤치마크가 여기서는 도움이 안 되는가
모델을 선택할 때 본능적으로 확인하게 되는 것이 MMLU, HumanEval, LMArena, LiveBench 같은 리더보드입니다. 이러한 지표들은 전반적인 능력을 파악하는 데는 유용하지만, 여러분의 특정 사용 사례에 대해서는 아무런 정보를 제공하지 못합니다.
- 저는 반대 의견을 내는 것이 아니라, 이것이 실제 모델이 작동하는 방식이라는 점을 강조하는 것입니다.
- 변수들은 매우 미묘합니다: 프롬프트를 표현하는 방식, 입력 구조, 심지어 쉼표의 위치까지도 어떤 모델이 가장 잘 수행할지를 바꿀 수 있습니다.
- MMLU에서 92 % 점수를 받은 모델이 여러분의 분류 작업에서는 60 %에 불과할 수 있고, 반대로 MMLU에서 85 % 점수를 받은 모델이 95 % 수준으로 정확히 맞출 수도 있습니다.
그리고 이러한 벤치마크는 비용을 전혀 고려하지 않습니다. 리더보드에서 “최고” 모델을 사용하면서 10배 정도의 비용을 낭비할 수도 있습니다. 왜냐하면, 그보다 세 단계 낮은 모델이 여러분의 특정 워크로드를 똑같이, 혹은 더 잘 처리할 수 있기 때문입니다.
실제 프로덕션에서 중요한 것
- 당신의 작업에 대한 정확도 – 일반적인 벤치마크가 아니라 실제 프롬프트, 데이터, 그리고 기대 출력물을 사용하세요.
- 실제 토큰 비용 – “백만당 가격”이 아니라 작업당, 호출당, 파이프라인 실행당 모델이 실제로 청구하는 비용을 의미합니다. 여기에는 입력 토큰(토크나이저에 따라 달라짐), 출력 토큰(모델 행동에 따라 크게 변동), 그리고 청구되는 추론 토큰이 모두 포함됩니다.
- 지연 시간 – 첫 토큰이 나올 때까지의 시간과 전체 완료 시간. 에이전트 기반 워크플로우나 사용자‑대면 기능에서는 비용만큼이나 중요합니다.
- 일관성 – 어떤 모델은 70 %의 경우에 뛰어난 출력을 내고 나머지 30 %는 엉망이지만, 다른 모델은 지루할 정도로 안정적입니다. 프로덕션에서는 지루하고 신뢰할 수 있는 모델이 언제나 승리합니다.
이 수치를 얻으려면 여러 모델에 대해 실제 워크로드를 실행해야 합니다—한 번만, 하나의 프롬프트만이 아니라, 체계적으로, 일정에 따라, 통계적으로 의미 있는 결과를 얻을 수 있을 만큼 충분히 다양한 상황에서. 대부분의 팀은 이 과정이 번거롭고 시간이 많이 든다는 이유로 수행하지 못합니다. 대신 “느낌이 좋다”는 이유와 리더보드 순위만 보고 모델을 선택해 배포하고, 다시는 돌아보지 않습니다.
그 결과 월 $10 k의 API 호출 비용을 지출하게 되지만, $2 k면 동일한 출력 품질을 얻을 수 있습니다.
실제 교훈
AI 모델 시장은 빠르게 변하고 있습니다: 몇 주마다 새로운 모델이 등장하고, 가격이 인하되며, 기능이 크게 향상되고, 새로운 공급자가 진입합니다. 3개월 전 당신의 사용 사례에 최적이었던 모델이 오늘은 최적이 아닐 수도 있습니다.
실제로 당신에게 가장 잘 맞는 것이 무엇인지 알 수 있는 유일한 방법은 테스트하는 것입니다—당신의 데이터와 프롬프트를 사용하고, 특정 상황에 중요한 요소들을 측정하면서. 그 외는 모두 추측에 불과합니다.
나는 플래그십 모델이 필요하다고 가정한 파이프라인에 **10×**나 과다 지불하고 있다는 것을 발견했을 때 이 교훈을 힘들게 배웠습니다. 그 이후로 중요한 새로운 릴리스가 나올 때마다 모델 선택을 재평가하는 것을 습관으로 삼았습니다. 비용 절감과 성능 향상이 매번 그 가치를 증명합니다.
B
Marc Kean Paker는 OpenMark의 설립자이며, 이 플랫폼은 팀이 리더보드 추측에서 벗어나 결정론적이고 비용을 고려한 모델 선택으로 나아가도록 설계된 AI 모델 벤치마킹 플랫폼입니다.
