토큰맥싱 파티는 끝났고, 레베니움이 정리 중이다.
출처: The New Stack
지난 18개월 동안 기업의 인공지능 접근 방식은 골드러시와도 같았다. 목표는 단순했다: 도입하고, 통합하고, 규모를 확장하라. 엔지니어링 팀에게는 대형 언어 모델에 대한 갑작스럽고 무제한적인 접근 권한이 주어졌다는 뜻이었다. 이로 인해 내부 리더보드가 생겨 어느 엔지니어—또는 어느 부서—가 가장 많은 토큰을 소비했는지를 추적하는 기이하고 과열된 현상이 나타났다. 이는 tokenmaxxing이라 불리는, 비즈니스 결과와 전혀 연관성이 없는 잘못된 열정에 의해 구동되는 지표였다.
참고로, AI 토큰은 LLM이 정보를 처리하고 생성하는 데 사용하는 데이터의 기본 구성 요소(단어 조각, 구두점, 픽셀 등)이다. 영어에서는 한 토큰이 대략 ¾ 단어, 혹은 4자에 해당한다. 토큰은 AI 컨텍스트 한도, 성능, 그리고 API 청구를 결정한다.
하지만 짧은 시간에 가능한 한 많은 토큰을 사용해 AI 비밀 소스를 쌓아올리라는 기업 지시로 촉발된 이 파티는 이제 끝이 보인다. 그 후폭풍은 예측되지 않은 거대한 클라우드 비용 청구서 형태로 찾아오고 있다.
“아무 유용한 일도 하지 않으면서 (많은) 돈을 쓸 수 있다.”
Jason Cumberland, 버지니아주 헤런던에 본사를 둔 Revenium의 공동 설립자 겸 최고 제품 책임자는 The New Stack에 변화에 대해 이렇게 말했다.
“세상이 한 방향으로 미쳐갔다가 다시 현실로 돌아왔다.”라고 Cumberland는 말한다. “우리는 그 모습을 보면서 ‘이건 미친 짓이다’라고 생각했다. 아무 유용한 일도 하지 않으면서 (많은) 돈을 쓸 수 있다.”
AI 비용이 이론적인 실험 예산에서 실제 손익에 영향을 미치는 구체적인 항목으로 전환되면서, 기업 리더들은 무분별한 확장에서 엄격한 통제로 방향을 바꾸고 있다. 바로 이 지점에서 Revenium이라는 고급 관측성 툴셋이 자리를 잡았다. 이 회사는 원래 API 수익화 전문 업체였으며, 현재는 스스로를 AI 경제 제어 시스템이라고 부르는 방향으로 성공적으로 전환했다.
화요일, Revenium은 AI Economic Control System 내에 새로운 기능 AI Insights(문서)를 출시해 낭비된 AI 예산을 식별하고 회수한다. 다단계 탐지 파이프라인을 통해 거래 내역을 분석하고, 각 권고 사항을 구체적인 금액과 직접 연결된 거래 데이터와 매핑한 순위 리스트를 생성한다. 이 접근 방식은 사용량 데이터에 압도당하고 실행 가능한 인사이트가 부족한 기업들이 흔히 겪는 분석 격차를 해소한다.
베타 테스트에서 AI Insights는 에이전트 요청의 비용이 많이 드는 순환 의존성, 구식이면서 비싼 모델 의존, 특정 모델 제공업체의 높은 실패율 등 중대한 비효율성을 찾아냈다. 월별 잠재 절감액을 기준으로 우선순위를 매김으로써 엔지니어들에게 빠른 수정이 가능한 명확한 작업 리스트를 제공한다. 단순히 원시 대시보드를 보여주는 것이 아니라, Revenium의 엔진은 폐기 요소를 자동으로 탐지·순위화해 가장 큰 재무 영향을 미칠 항목에 즉시 대응할 수 있게 한다.
AI 관측성의 API 뿌리
Revenium은 6년 역사의 첫 번째 단계에서 API 수익화에 집중했으며, Salesforce와 Mulesoft 같은 대기업과 파트너십을 맺었다. 생성 AI 버블이 부풀기 시작했을 때, 이미 구축해 둔 대용량 API 트랜잭션 메터링 인프라가 AI 시대에 딱 맞는다는 것을 깨달았다.
“모든 AI는 결국 API다.”라고 Cumberland는 말한다. “우리는 대용량 트랜잭션을 위한 메터링 백엔드가 AI 세계에서도 매우 가치 있을 수 있다는 것을 인식했다.”
Revenium은 또 다른 FinOps 도구는 아니다. 경쟁사인 CloudZero와 같은 기업이 AI ROI 트렌드에 맞춰 마케팅을 바꾸는 반면, Revenium은 런타임 계측 관점에서 문제에 접근한다. 청구 API가 몇 시간·몇 일 지연될 수 있는 상황에서도 기다리지 않는다. 대신 Revenium의 코드는 런타임에 삽입돼 트랜잭션을 실시간으로 메터링하고, 예산 초과 시 즉시 차단할 수 있게 한다.
빙산 문제
문제의 규모를 이해하기 위해 Cumberland는 자신이 부르는 “빙산 차트”를 언급한다.
대부분의 조직은 AI 지출을 토큰 비용이라는 좁은 시각으로만 본다. 이는 물 위에 보이는 빙산의 일각에 불과하다. 물 아래에는 방대한 하위 비용이 은밀히 존재한다. AI 에이전트는 이제 거의 독립적으로 존재하지 않는다; Snowflake, Stripe, 혹은 제3자 신원 서비스와 같은 시스템과 연결된다. 이러한 호출마다 비용이 발생하지만, 대부분의 기업 환경에서는 AI 에이전트가 이러한 하위 영향을 전혀 인식하지 못한다.
“금융 서비스 워크플로에 관여하는 에이전트를 상상해 보라.”라고 Cumberland는 설명한다. “그 에이전트는 대출을 처리하고 데이터를 검토해 컴플라이언스 결정을 내린다. 이 과정에서 에이전트는 Equifax나 TransUnion 같은 외부 서비스에 API 호출을 할 수 있다. 신용 보고서 하나당 $25가 든다. LLM 제공업체로부터 토큰 청구서를 받고, 월말에 Equifax 청구서를 받게 되지만, 두 청구서가 연결돼 있다는 사실을 파악하기는 어렵다.”
Revenium의 시스템은 이러한 사일로를 깨뜨려, 외부 서비스 비용을 해당 에이전트와 직접 연결할 수 있는 데이터 모델을 만든다.
AI 성숙도의 세 단계
Cumberland와 그의 팀은 AI 관측성 도입을 세 단계의 성숙도로 바라본다.
- 귀속(Attribution): 기본 단계다. 돈이 어디에 쓰이고 있는지, 어떤 제공업체가 관여했는지, 어떤 에이전트·비즈니스 유닛이 토큰을 소비하고 있는지를 파악한다. 이는 흐릿한 전체 클라우드 청구서에서 명확하고 실행 가능한 데이터로 전환하는 것을 의미한다.
- 하위 시스템 연계: 여기서 “빙산” 문제가 해결된다. 기업은 AI 에이전트와 Snowflake나 신용 조회 API 같은 제3자 인프라 간의 연관성을 연결해 자동화된 프로세스의 실제 비용을 전체적으로 파악한다.
- ROI 및 결과 분석: 궁극적인 목표다. “우리는 얼마나 쓰고 있는가”에서 “그만한 가치가 있는가”로 넘어간다.
세 번째 단계에서 Revenium은 AI와 인간 워크플로의 상대적 성과를 추적한다. 인간이 AI 에이전트의 오류를 수정·검토·정리하는 데 소요되는 시간을 계량화한다. “AI 에이전트가 실패하고 인간에게 넘어가면, 최초 실행에 대한 토큰 비용과 그 위에 인간 시간이 추가된다.”라고 Cumberland는 말한다. “우리가 기업이 할 수 있게 돕는 것은 이 두 가지를 모두 추적하는 것이다.”
AI 인력 관리로의 전환
Revenium 비전에서 가장 도발적인 측면은 AI 에이전트에 대한 인력 관리 접근법이다. 이는 기존 인력 관리와 평행한다.
우리는 인간 직원들을 위한 수십 년간의 정교한 관리·성과 검토 시스템을 갖추고 있다. 그러나 기업이 코드 구현부터 지원 차단까지 수천 개의 에이전트를 배치하면서, 이를 관리할 동등한 인프라가 전무하다.
“저는 결국 직원들이 성과 검토를 받듯이, AI 에이전트도 동일한 관리 체계가 필요하다고 굳게 믿는다.” (이하 생략)