토큰 기반 과금이 AI ROI 문제를 드러내다: 실제 수치는?

발행: 3일 전 (2026년 6월 10일 AM 03:22 GMT+9)

10 분 소요

Source: Dev.to

2026년 1분기에 OpenAI와 Anthropic은 기업 고객을 정액제 플랜에서 토큰 기반 청구 방식으로 전환했습니다. 겉보기에 행정적인 변화처럼 보이지만, 이는 엔지니어링 팀에게 직접적인 영향을 미쳤습니다. AI의 실제 비용이 처음으로 가시화된 것이죠. 이후 두 달간 시장의 반응은 “AI가 실제로 측정 가능한 ROI를 제공하는가?”라는, 이미 해결된 것으로 여겨졌던 질문을 다시 떠올리게 만들었습니다.

가장 많이 언급된 사례는 Uber입니다. 이 회사는 모든 직원에게 가능한 한 많이 에이전트형 도구를 사용하도록 장려했고, 내부 리더보드에 AI 사용량을 순위화하기도 했습니다. 그 결과: 연간 예산 전체가 4개월 만에 소진되었습니다. 이에 대한 대응으로 직원당 에이전트형 코딩 도구(Claude Code, Cursor 등) 사용에 월 $1,500 한도를 부과했습니다. Brex에서는 엔지니어에게 토큰 사용을 주당 $500으로 제한했으며, 엔지니어링 외 직원에게는 주당 $5 한도를 두었습니다. T‑Mobile은 일시적으로 사용자당 월 $2,000 사용 한도를 적용하고, 이후 단계별 과금 체제로 전환할 계획을 발표했습니다. Ed Zitron이 “AI Is Slowing Down”(2026년 6월)에서 언급한 한 익명 기업은 지출 통제 부재로 한 달에 Anthropic 모델에만 $5억을 사용했다고 합니다.

이러한 사례는 예외가 아닙니다. 월스트리트 저널이 2026년 6월에 인용한 KPMG 설문조사에 따르면, 기업의 **26%**만이 AI 비용을 포괄적으로 파악하고 있으며, **50%**는 부분적인 가시성만을 가지고, **22%**는 청구서가 도착한 뒤에야 자신들이 얼마를 써야 하는지 알게 됩니다. KPMG 글로벌 AI 책임자인 Steve Chase는 저널에 “이것은 기존에 없던 새로운 자원이며, 우리는 그 관리가 필요하고 급격히 성장하고 있음을 보고 있다”고 말했습니다.

지출 한도는 증상의 일부일 뿐입니다. Zitron이 같은 기사에서 지적한 근본 원인은 생성 AI 경제학이 현재 감당하기 어려운 규모의 숫자를 요구한다는 점입니다.

Anthropic은 Google, Amazon, Microsoft와 함께 3,300억 달러 규모의 컴퓨팅 약정을 체결했으며, CoreWeave와 SpaceX와는 추가로 450억 달러를 약속했습니다. 이러한 약정을 충당하려면 2029년까지 연간 1,740억 달러의 매출이 필요합니다. OpenAI는 2030년 말까지 최소 8,520억 달러를 소모할 것으로 예상되며, 이미 7,700억 달러 규모의 컴퓨팅 약정을 가지고 있습니다. 두 회사의 2026년 예상 매출은 약 600억 달러에 불과해, 2029년까지 496% 성장해야 합니다.

The Information이 인용한 바에 따르면, OpenAI와 Anthropic은 전체 AI 스타트업 매출의 **89%**를 차지합니다. NVIDIA, 하이퍼스케일러, OpenAI, Anthropic을 제외하고는, Zitron이 “수백만 달러 수준을 넘어서는 컴퓨팅 비용을 지출하는 기업을 찾을 수 없다”고 말합니다. 전체 산업이 2030년까지 연간 2조 달러 이상의 매출을 창출해야 현재 구축 중인 인프라를 정당화할 수 있습니다.

Microsoft AI CEO인 Mustafa Suleyman은 공개적으로 Anthropic 모델이 너무 비싸며, Microsoft의 사용을 제로로 줄이겠다고 밝혔습니다. 이는 Microsoft가 Anthropic의 주요 고객 중 하나라는 점을 감안하면 중요한 발언입니다.

토큰 기반 청구로 전환하기 전에는 모델 오류(루프, 잘못된 응답, 재처리)로 인한 비용이 최종 사용자에게 전가되지 않았습니다. 왜냐하면 비용이 정액제 플랜에 포함돼 있었기 때문이죠. 2026년 1분기부터는 소비된 토큰 하나하나가 청구서에 표시됩니다.

Zitron은 이를 직접 이렇게 설명합니다:

“이렇게 생각해 보세요. 비용 제한은 있지만 실제 비용이 없는 AI 구독을 사용한다면, 모델이 루프에 빠지거나 잘못된 작업을 수행하는 실수는 ‘초기 단계 기술의 고통스러운 특성’이라고 넘길 수 있습니다. 왜냐하면 한 달 전체 비용이 $20, $100, $200 정도였기 때문이죠. Anthropic, OpenAI, 그리고 다른 모든 AI 기업은 사용자가 AI 모델의 실수에 대해 실제로 비용을 지불해야 하는 순간, 마치 벌에 쏘인 듯 비명을 지를 것이라는 것을 알기에 비용을 일부러 흐리게 했습니다.”
— Ed Zitron, “AI Is Slowing Down”

다시 말해, 정액제 청구는 모델 비효율성을 보이지 않게 하는 완충 역할을 했던 것입니다. 토큰 기반 청구가 도입되면 불필요한 에이전트 반복도 모두 청구서에 나타납니다.

이에 따라 에이전트형 도구를 도입하는 엔지니어링 팀은 새로운 요구사항을 충족해야 합니다:

비용 가시성: 팀, 도구, 작업 유형별 토큰 소비를 실시간 대시보드에 표시
선제적 제한: 채택이 확대되기 전에 지출 한도를 설정하고, 첫 번째 놀라운 청구서가 온 뒤가 아니라 사전에 제한을 두어야 함
성과 지표: 토큰 사용량을 실제 결과(병합된 풀 리퀘스트, 닫힌 티켓, 프로덕션에 배포된 기능)와 연결
에이전트 워크플로우 검토: 토큰을 소모하지만 다른 결과를 만들지 못하는 불필요한 루프나 재처리 단계 식별

토큰 기반 청구가 AI 도구를 덜 유용하게 만드는 것은 아닙니다. 오히려 비용을 투명하게 만들 뿐입니다. 아직 이러한 계측 체계를 갖추지 못한 팀은 Uber와 같은 위험에 처합니다. 급속한 채택으로 몇 달 만에 예산이 고갈되고, 사용을 최적화하기보다 접근을 차단해야 하는 상황에 직면하게 됩니다.

우리는 워크플로우별로 ROI가 검증된 사용 사례와 실험 단계인 사용 사례를 구분해야 합니다. 두 경우의 차이는 판단이 아니라 운영상의 차이입니다. 실험은 별도 예산과 명확한 종료 기준이 필요합니다.

여러분의 팀은 에이전트형 도구의 비용 가시성을 어떻게 관리하고 있나요?

Fonte: AI Is Slowing Down — Ed Zitron

토큰 기반 과금이 AI ROI 문제를 드러내다: 실제 수치는?

관련 글

LongMemEval에서 메모리 방식이 전체 컨텍스트를 앞섰다 — 우리가 놓친 승리

Eidentic 소개

Typescript의 타입

AgentForge – AI 에이전트가 신뢰할 수 있는 코드를 배포하도록 하는 28가지 프로덕션 급 스킬