AI 비용이 폭주하고 있습니다. 클라우드플레어가 지금 해결합니다.

발행: (2026년 6월 5일 PM 10:00 GMT+9)
11 분 소요

출처: Cloudflare Blog

2026-06-05

6분 읽기
*

지금 AI 비용에 대해 걱정하지 않는 CIO는 세상에 없습니다. CFO들 역시 점점 긴장하고 있습니다.

뒤처질까 두려워서 많은 기업이 직원들에게 AI를 가능한 한 적극적으로 사용하도록 독려했습니다. 명령은 명확했습니다: “빨리 움직이고, 비용은 나중에 정리하자.” 대부분의 경우 이것은 효과가 있었습니다. AI는 적극적으로 활용한 팀에게 진정한 변화를 가져다 주었습니다.

하지만 비용은 현실입니다. 우리는 거대한 청구서와 토큰 사용 초과로 인한 고통스러운 사례들을 수없이 들었습니다.

오늘, 우리는 Cloudflare AI Gateway에 비용 제어 기능을 도입하고, Cloudflare Access와 기존 아이덴티티 제공자를 활용한 아이덴티티 기반 예산 및 라우팅에 대한 폐쇄 베타를 발표합니다.

수백 개 기업과 AI 전략에 대해 이야기를 나누다 보니 공통된 이야기가 있었습니다. 기업은 모든 엔지니어에게 공유 API 키를 통해 최첨단 모델에 접근 권한을 부여합니다. 사용량이 급증하고, 월말에 재무팀이 청구서를 받아보면 어디에 돈이 쓰였는지 설명할 수 없습니다. 머신러닝 팀이 새로운 파이프라인을 학습했나요? 인턴이 이메일 분류에 Claude Opus를 사용했나요? 주말에 5천만 토큰을 소모한 CI 작업이 있었나요? API 키만으로는 누가 사용했는지 알 수 없기 때문입니다.

가이드라인이 없으면 직원들은 일반적으로 가장 큰 모델을 선택합니다. 왜 그럴까요? 예산도, 가시성도, 라우팅 로직도 없으니 가장 강력한 모델을 모든 작업에 쓰는 것이 합리적이기 때문입니다. 문제는 대부분의 작업에 최첨단 모델이 필요 없다는 점입니다. 코드 리뷰 요약에는 복잡한 아키텍처 리팩터보다 가벼운 모델이 충분하고, 로그 파서는 고객용 콘텐츠 생성 모델보다 간단한 모델이면 됩니다. 작업에 맞는 적절한 도구를 선택하고, 비용이 어디로 가는지 쉽게 확인할 수 있어야 합니다.

AI 비용에 대한 ROI를 계산하려면 지출 내역을 파악할 수 있어야 하고, 그 ROI를 보호하려면 제어 수단이 필요합니다. 비즈니스의 모든 라인 아이템에는 예산과 팀별 할당이 존재합니다. AI 비용도 마찬가지여야 합니다.


AI Gateway란?

AI Gateway는 애플리케이션과 AI 제공자 사이에 위치합니다. OpenAI, Anthropic, Google 등 개별 제공자를 직접 호출하는 대신, 모든 요청이 먼저 AI Gateway를 거칩니다.

이렇게 하면 다음과 같은 유용한 도구들을 바로 사용할 수 있습니다.

하지만 AI Gateway에는 누가 얼마만큼 사용하고 있는지, 비용 한도를 어떻게 설정할지에 대한 간편한 방법이 없었습니다.

전체 계정의 사용량 집계는 볼 수 있었지만, 예를 들어 엔지니어링 팀의 제인이 이번 달에 Claude에 2,000달러를 썼고 데이터 사이언스 팀 전체는 400달러만 사용했다는 식의 세부 정보를 확인하거나, “엔지니어링은 최첨단 모델에 월 5,000달러, 인턴은 Kimi K2.6에 월 200달러”와 같은 예산을 설정할 수 없었습니다.

오늘부터는 이 문제가 해결됩니다.


비용 한도: AI 사용을 위한 예산

AI Gateway는 이제 비용 한도를 핵심 기능으로 지원합니다. 이는 토큰이 아니라 달러 단위의 예산을 설정해 모든 요청의 누적 비용을 실시간으로 추적하는 진정한 비용 제어 수단이며, 기존 속도 제한과는 별개로 동작합니다.

예산 한도는 모델, 제공자, 사용자·팀·애플리케이션 등 관리자가 정의한 커스텀 속성을 조합해 자유롭게 적용할 수 있습니다. 기간은 고정(월 초, 월요일, 자정 등) 혹은 롤링 방식으로 설정 가능하며, 일·주·월 단위로 지정할 수 있습니다.

BLOG-3331 image1

AI Gateway는 모델 가격을 기준으로 요청당 비용을 계산하고, 실시간으로 누적 지출을 한도와 비교합니다. 대시보드의 분석 화면에서 모델별, 제공자별, 혹은 커스텀 속성별로 사용량을 손쉽게 필터링해 확인할 수 있습니다.

예산 한도에 도달했을 때의 동작 옵션도 다양합니다. 기본 설정은 추가 요청을 차단하지만, 동적 라우팅을 활용해 한도에 도달하면 자동으로 저렴한 대체 모델로 라우팅하도록 규칙을 만들 수 있습니다. 이렇게 하면 강제적인 비용 상한선이 엔지니어들의 워크플로를 방해하지 않게 됩니다. 또한 한도 도달 시 알림을 보내는 기능도 곧 추가될 예정입니다.

비용 한도는 오늘부터 모든 플랜의 AI Gateway 사용자에게 오픈 베타 형태로 제공됩니다. 대시보드의 게이트웨이 설정 혹은 API를 통해 구성하세요.


우리도 직접 사용하고 있습니다

우리는 이미 Cloudflare 내부에서 토큰 비용을 추적하고 있습니다. 모든 Cloudflare 직원이 매일 AI 도구를 사용하며, AI Gateway를 통해 매월 수백만 건의 요청과 수십억 개의 토큰을 처리합니다. 규모가 큰 조직이라면 누구나 마주하게 되는 “누가 무엇을 사용하고 있는가?”와 “어떻게 예산을 책정할 것인가?”라는 질문에 직면했습니다.

해결 방법은 AI Gateway에 아이덴티티 정보를 추가하는 것이었습니다. 직원이 Cloudflare Access를 통해 인증하면, JWT(JSON Web Token)에서 아이덴티티를 추출해 AI Gateway 요청 메타데이터에 첨부합니다. 이를 통해 사용자별 토큰 소비량, 팀별 사용량 분류, 조직 전체 비용 할당을 한 눈에 볼 수 있게 되었습니다.


아이덴티티 기반 예산 및 정책 (폐쇄 베타)

비용 한도와 함께 오늘은 아이덴티티 기반 예산 및 정책을 폐쇄 베타 형태로 공개합니다.

AI Gateway의 비용 한도는 모델, 제공자, 커스텀 속성별로 예산을 설정할 수 있습니다. 하지만 해당 메타데이터를 애플리케이션이 전달해야 하며, AI Gateway는 받은 정보를 그대로 신뢰합니다. 자동으로 정확한 비용 할당을 원한다면 아이덴티티가 필요합니다.

Cloudflare Access와 결합하면 AI Gateway는 각 요청이 누가 보냈는지—계정뿐 아니라 직원, 아이덴티티 제공자(IdP) 그룹, 서비스 등을 파악할 수 있습니다.

실제 화면은 다음과 같습니다.

BLOG-3331 image2

BLOG-3331 image4

예를 들어, 개인 기여자는 월 500달러, 시니어 엔지니어는 월 2,000달러의 예산을 설정할 수 있습니다. 사용자가 한도에 도달하면 요청을 저렴한 모델로 다운그레이드하거나 차단하도록 할 수 있습니다.

팀별 모델 정책도 정의할 수 있습니다. 예를 들어, 머신러닝 팀은 Claude Opus와 GPT‑4o에 접근하고, 브랜드 디자인 팀은 생성형

0 조회
Back to Blog

관련 글

더 보기 »

VoidZero가 Cloudflare에 합류한다

2026-06-04 7 min read !https://cf-assets.www.cloudflare.com/zkvhlag99gkb/4EEGE4niWUjPwG5iCAFiuQ/6e63dca6bb8a0cf26d0f677727e3c356/BLOG-VOID_1.png VoidZero, the c...