토큰 비용 청구서 도착: AI 비용 급증을 잡으려는 업계 내부 움직임

발행: (2026년 6월 5일 PM 11:49 GMT+9)
12 분 소요
원문: TechCrunch

Source: TechCrunch

업계 전반에 걸쳐 기업들은 AI 비용에 대해 점점 거부감을 보이고 있다. Uber는 2026년 전체 AI 코딩 예산을 4월에 이미 소진했고, Microsoft는 개발자들에게 Claude Code 라이선스를 제공한 지 몇 달 만에 이를 철회했다. Priceline 직원은 TechCrunch에 일상적인 Cursor 계약 갱신이 4~5배 비싸게 나왔다고 전했다.

토큰당 가격은 떨어졌지만, AI 도입 확대와 점점 더 자율적인 에이전트들의 등장으로 토큰 소비는 계속해서 증가하고 있다. 2025년 초에 무제한 구독을 마음껏 이용하던 기업들은 이제 어디에 돈이 쓰이고 있는지 파악하고, 지출을 줄이며, 예산 파탄 속에서 ROI를 회복할 수 있을지 고민하고 있다.

동시에 이를 해결하려는 시장이 형성되고 있다. 스타트업, 기존 벤더, 그리고 새로운 표준 기구가 기업들에게 비용을 추적할 수 있는 도구와 언어를 제공하기 위해 경쟁하고 있다.

“6개월 전만 해도 고객과의 대화는 ‘무엇을 할 수 있나요? 충분히 좋은가요?’에 관한 것이었습니다.”라고 OpenAI 기업 부문 책임자인 Alexander Embiricos는 이번 주 뉴욕에서 열린 행사에서 TechCrunch에 말했다. “이제는 그런 대화가 전혀 없습니다. 이제는 ‘우리가 너무 많이 쓰고 있어요. 가시성은 있나요? 감사 가능성은 있나요? 토큰 제어는 어떻게 되나요? 모델 효율성은 어떤가요?’에 대한 이야기입니다.”

이러한 배경 속에서 리눅스 재단은 이번 주 토큰오믹스 재단(Tokenomics Foundation) 설립 계획을 발표했다. 이 새로운 표준 기구는 클라우드 비용 관리에서 FinOps가 해왔던 것처럼 AI 토큰 비용에 대한 동일한 비용 규율을 도입하는 것을 목표로 한다.

“4월과 5월에 기업들로부터 ‘우와, 2026년 전체 토큰 예산을 3배 초과했는데 아직 4월뿐이에요’라는 말을 듣기 시작했습니다.”라고 리눅스 재단 산하 FinOps 재단의 전무 이사 J.R. Storment는 TechCrunch에 전했다. “존재론적 위기가 들려오기 시작했고, 대화는 tokenmaxxing과 ‘빨리 가자’에서 ‘우리는 가드레일이 필요해, 어떻게 통제할까?’로 바뀌었습니다.”

전 세계 기술 업계에 울려 퍼진 외침은 최고경영자들이 팀에게 최고의 모델을 사용하고 빠르게 움직이도록 압박하면서 비용은 무시하라는 요구와 맞물렸다. 11월에 출시된 Anthropic의 Claude Opus 4.5, OpenAI의 GPT‑5.1, Google의 Gemini 3 Pro와 같은 신모델들은 에이전트 도구를 크게 개선했으며, 이는 토큰 소비를 급증시켰다. 한 기업은 직원들의 사용 제한을 설정하지 않아 결국 5억 달러 규모의 Claude 청구서를 받게 되었다고 전해졌다.

“마치 크랙 코카인 유행과 같다”고 Priceline의 IT 재무 수석 Chris Reed는 말했다. 그는 회사가 특정 그룹에 토큰 제한을 두기 시작했다고 덧붙였다. “처음엔 시도해 보게 해서 중독시키고, 이제는 그에 얽매이게 되는 겁니다.”

Faros AI의 엔지니어링 운영 플랫폼 CEO Vitaly Gordon은 최근 한 CTO와 대화했는데, 그 CTO는 “우리 엔지니어 중 한 명이 지난달에 토큰에 4만 달러를 썼어요. 그를 멈춰야 할지, 아니면 다른 사람도 똑같이 하라고 해야 할지 모르겠어요.”라고 말했다.

Faros가 3월에 진행한 설문조사에서는 2만 명의 개발자 중 생산성이 상승했지만 버그와 재작성도 늘었다는 결과가 나왔다. 엔지니어링 관리 플랫폼 Jellyfish도 토큰을 많이 사용한 엔지니어가 덜 사용한 사람보다 약 두 배 생산적이지만, 목표 달성을 위해 토큰을 10배 더 소비한다는 점을 발견했다.

Jellyfish 연구 책임자 Nicholas Arcolano는 이메일을 통해 TechCrunch에 AI 지출이 에이전트 기능 때문에 급증하고 있으며, 개발자당 소비량이 9개월 사이에 약 18.6배 증가했다고 전했다. “극심한 지출이 효과가 있는지는 결국 배포된 코드의 궁극적인 비즈니스 가치(예: 매출)에 달려 있는데, 대부분의 기업은 아직 이를 측정하지 못하고 있습니다.”라고 Arcolano는 덧붙였다.

이러한 측정 문제의 일부는 오늘날 AI가 사용되는 규모 자체에 있다.

“클라우드 비용을 추적하는 것은 매달 수억 행의 데이터 문제입니다.”라고 Storment는 말했다. “토큰 비용을 추적하는 것은 매달 수조 행의 데이터 문제죠. 이를 스프레드시트나 기본 도구에 억지로 넣을 수 없습니다. 툴링, 사양, 회계 시스템을 근본적으로 재구상해야 합니다.”

Priceline에서 Reed는 이미 불일치를 목격하고 있다. 그는 공급업체가 보고한 사용량과 Priceline 내부 데이터 사이에 차이가 있음을 지적했다.

“저는 통신비 관리 분야에서 경력을 시작했는데, 통신, 클라우드, AI 모두에서 같은 패턴을 보고 있습니다.”라고 그는 말했다. “새로운 무언가를 도입하면 청구 오류와 감사·최적화 기회가 생기기 마련이죠.”

이 문제를 둘러싼 시장이 형성되고 있다. Pure‑play 기업인 Pay‑i는 GenAI 투자 비용과 성능을 추적·측정·최적화한다. 한편, Paid는 개발자가 비용을 추적하고 사용량을 측정하며 구독료가 아닌 실제 가치에 따라 청구하도록 돕는다.

Jellyfish, Waydev, Faros AI와 같은 기업들은 모두 AI 에이전트 모니터링을 제공해 개발자 도구의 ROI를 증명한다. Storment에 따르면 FinOps 재단에 소속된 180개 벤더 대부분이 이 영역으로 눈을 돌리고 있다.

기존 유통망을 가진 기업들도 새로운 기능을 추가해 이 시장을 공략하고 있다. Ramp는 최근 AI 지출 관리로 진출했으며, DatadogNew Relic은 클라우드 비용 관리, 토큰 수준 가시성, GPU 모니터링 같은 서비스를 추가했다. 다음 주 FinOps X 컨퍼런스에서 AWS는 기업 AI 지출을 위한 새로운 재무 관리 기능을 선보일 예정이다.

NEA 파트너 Tiffany Luck는 토큰 효율성과 가시성이 “하위 레이어 또는 앱 레이어”에 추가될 가능성이 높다고 본다. 그녀는 이번 주에 Factory라는 스타트업이 모든 작업에 맞는 모델을 자동으로 선택하는 모델 라우터를 출시한 사례를 들었다.

Gordon은 Frontier Labs와 같은 모델 제공업체가 OpenRouter식 최적화를 도입해 가장 저렴한 모델로 쿼리를 유도할 것이라고 예상한다. 이는 이미 기업 Claude 청구서에서 나타나는 추세다.

“Anthropic에 얼마를 쓰든, Opus 모델을 호출하더라도 일부 비용은 Sonnet이나 Haiku에 쓰이게 됩니다. 왜냐면 시스템이 자동으로 가장 효율적인 모델을 선택하니까요.”라고 Gordon은 말했다. “이런 방식은 점점 더 보편화될 겁니다.”

하지만 이러한 도구들은 토큰 비용이 얼마인지, 무엇을 생산하는지, 공급업체 간 지출을 어떻게 비교할지에 대한 공통 언어와 정의 없이 개발되고 있다. 바로 여기서 Tokenomics Foundation이 역할을 할 수 있다.

재단은 “토큰오믹스”에 대한 정형화된 정의와 프레임워크, AI 토큰 사용 및 청구를 위한 개방형 표준·명세·지표, 그리고 비용‑당‑지능, 토큰‑당‑와트와 같은 새로운 AI 경제 지표를 구축하고 있다. 또한 토큰 팩토리 효율성과 소비 효율성에 대한 지표도 정의할 계획이다. 재단은 7월에 공식 출범을 앞두고 있으며, 곧 발표를 진행할 예정이다.

0 조회
Back to Blog

관련 글

더 보기 »