당신의 Claude Code 요금이 늘어나고 있습니다, 이를 제어하는 방법
Source: Dev.to
번역할 텍스트를 제공해 주시면 한국어로 번역해 드리겠습니다.
TL;DR
Claude Code 사용량은 팀 규모에 따라 선형적으로 증가하지만, 비용은 선형적으로 유지되지 않습니다. 모니터링되지 않은 20명의 개발자 팀은 아무도 눈치채기 전에 API 요금으로 매달 수십만 루피를 소모할 수 있습니다. Bifrost(오픈‑소스, Go, ~11 µs 오버헤드)는 가상 키를 통한 개발자별 예산, 실시간 비용 추적, 간단한 작업에 대한 저렴한 대안 모델 라우팅, 자동 장애 조치 등을 제공하며—개발자는 코드를 한 줄도 수정하지 않아도 됩니다.
예산에 포함되지 않는 비용 문제
Claude Code는 개발자 생산성을 실제로 혁신합니다. 이 점에 대해서는 이견이 없습니다.
하지만 20명의 개발자 팀이 매일 사용하기 시작하면 다음과 같은 일이 발생합니다:
| Problem | Symptom |
|---|---|
| No visibility | 누가 얼마를 쓰고 있는지 전혀 알 수 없습니다. 개발자 A는 거대한 모노레포 리팩터링에 Claude Code를 사용하고 있을 수도 있고(₹15 000 / day), 개발자 B는 변수 이름 바꾸기에만 사용하고 있을 수도 있습니다(₹500 / day). 두 사람 모두 Anthropic 청구서에 하나의 항목으로 표시됩니다. |
| No caps | 개발자당 ₹25 000 / month 한도를 설정할 수 있는 내장 메커니즘이 없습니다. 하나의 재귀 루프, 하나의 과도한 자동 세션, 하나의 주말 실험—이렇게 하면 다음 분기의 예산을 모두 소진하게 됩니다. |
| No routing intelligence | 모든 Claude Code 요청이 기본적으로 Opus‑tier 가격을 적용받습니다. 실제로 작업의 ~60 %(변수 이름 바꾸기, 보일러플레이트 작성, 간단한 완성)는 동일한 품질을 유지하면서 더 저렴한 모델로 처리될 수 있습니다. |
| No fail‑over | Anthropic이 속도 제한을 걸면(대규모에서는 필연적) Claude Code는 그냥… 작동을 멈춥니다. Bedrock이나 다른 제공업체로 자동 전환되는 기능이 없습니다. |
우리는 Bifrost를 운영하면서 이 모든 문제를 겪었고, 그래서 게이트웨이 자체에 해결책을 구현했습니다.
How Virtual Keys Solve This
Bifrost의 가상‑키 시스템은 모든 개발자(또는 팀, 프로젝트)에게 독립적인 제어가 가능한 자체 API 키를 제공합니다. 하나의 게이트웨이, 여러 키, 각각 고유한 규칙을 가집니다.
Per‑Developer Budget Caps
Developer A: Virtual Key "dev-pranay"
→ Monthly budget: ₹25 000
→ Rate limit: 100 requests/minute
→ Models allowed: claude-sonnet-4-20250514, claude-haiku-4-5-20251001
Developer B: Virtual Key "dev-intern"
→ Monthly budget: ₹5 000
→ Rate limit: 30 requests/minute
→ Models allowed: claude-haiku-4-5-20251001 only
개발자가 예산 한도에 도달하면 Bifrost는 명확한 오류를 반환합니다 – 예상치 못한 청구서도 없고, “지난달에 ₹2 lakh을 쓴 사람이 누구인가?” 같은 회의도 없습니다.
Four‑Tier Budget Hierarchy
| 레벨 | 목적 |
|---|---|
| Customer | 조직 전체 지출 한도 |
| Team | 팀별 할당 (프론트엔드, 백엔드, ML 등) |
| Virtual Key | 개발자별 또는 프로젝트별 한도 |
| Provider Config | 프로바이더별 지출 한도 |
각 레벨은 독립적으로 적용됩니다. 팀에 남은 여유가 있더라도 개발자는 자신의 가상‑키 예산을 초과할 수 없으며, 조직 예산에 여유가 있더라도 팀은 할당량을 초과할 수 없습니다 – 깊이 있는 방어 체계가 구현됩니다.
설정하기 (≈ 10 분)
단계 1 – Bifrost 실행
npx -y @maximhq/bifrost
# Open http://localhost:8080
단계 2 – 제공자 추가
웹 UI에서 Anthropic API 키를 추가하고 (선택적으로 OpenAI, Bedrock 등도 장애 조치를 위해 추가)
단계 3 – 가상 키 생성
각 개발자마다 다음을 포함한 가상 키를 생성합니다:
- 월별 또는 일별 예산 한도
- 속도 제한 (분당 요청 수)
- 허용 모델 목록
- 대체 체인 (예: Anthropic → Bedrock)
단계 4 – Claude Code를 Bifrost에 연결
각 개발자마다 하나의 환경 변수를 추가합니다:
# In .bashrc, .zshrc, or Claude Code config
export ANTHROPIC_BASE_URL=http://your-bifrost:8080/anthropic
export ANTHROPIC_API_KEY=vk-dev-pranay # Their virtual key
Claude Code는 차이를 알지 못합니다 – 마치 Anthropic에 직접 연결된 것처럼 동작합니다. 모든 요청은 Bifrost를 통해 흐르고, 로그가 기록되며, 예산이 확인되고, 여러분의 규칙에 따라 라우팅됩니다.
실시간 비용 추적
Bifrost를 통해 들어오는 모든 요청은 다음과 같이 기록됩니다:
- Cost – 입력 토큰, 출력 토큰, 사용 통화 기준 총 비용
- Model used – 실제로 요청을 처리한 모델
- Latency – 첫 토큰까지 걸린 시간, 전체 응답 시간
- Developer – 요청을 만든 가상 키
- Timestamp – 요청이 발생한 시점
http://localhost:8080 에서 제공되는 웹 UI는 이 데이터를 실시간으로 표시합니다. 가상 키, 모델, 시간 범위별로 필터링하고 재무 분석을 위해 데이터를 내보낼 수 있습니다. 이제 월간 Anthropic 청구서를 기다리며 과다 지출을 발견할 필요가 없습니다.
모델 라우팅: 하이쿠 작업에 대해 Opus 가격을 지불하지 않기
Bifrost는 가중 라우팅을 지원합니다; 규칙에 따라 트래픽의 일정 비율을 다양한 모델로 전송하도록 가상 키를 구성할 수 있습니다.
Claude Code에 대한 실용적인 분할:
| 작업 유형 | 대상 모델 |
|---|---|
| 복잡함 (아키텍처 결정, 대규모 리팩터링, 디버깅) | Claude Sonnet / Opus |
| 단순함 (보일러플레이트, 이름 변경, 포맷팅) | Claude Haiku 또는 GPT‑4o‑mini |
라우팅, 형식 변환, 응답 정규화는 Bifrost에서 투명하게 이루어집니다.
비용 비교 (입력 토큰 1 M당)
| 모델 | 대략적인 비용 |
|---|---|
| Claude Opus | ~$15 |
| Claude Sonnet | ~$3 |
| Claude Haiku | ~$0.78 |
| GPT‑4o‑mini | ~$0.15 |
Claude Code 작업 중 60 %가 하이쿠에 충분히 단순하다면, 해당 작업을 라우팅함으로써 해당 트래픽의 약 75 %를 절감할 수 있습니다. 의미 캐싱(또한 Bifrost에서 지원)과 결합하면, 대부분의 팀에서 전체 비용을 50‑70 % 정도 절감하는 것이 현실적입니다.
자동 …
(원본 내용이 여기서 잘렸습니다; 필요에 따라 문서의 나머지를 계속 작성하십시오.)
장애 조치
Anthropic이 팀에 속도 제한(429 오류)을 걸면 Bifrost가 자동으로 체인에 있는 다음 공급자로 장애 조치를 수행합니다. Bedrock을 대체 옵션으로 구성한 경우:
Primary: Anthropic Claude Sonnet
↓ (rate limited)
Fallback: AWS Bedrock Claude Sonnet
↓ (if also unavailable)
Fallback: OpenAI GPT‑4o
각 대체 옵션은 새로운 요청이며, 모든 플러그인(캐싱, 거버넌스, 로깅)이 다시 실행됩니다. 개발자의 Claude Code 세션은 중단되지 않으며, 장애 조치가 발생했는지 전혀 눈치채지 못할 수도 있습니다.
대규모에서의 모습
Bifrost 없이
- No per‑developer visibility
- Monthly Anthropic bill: ₹15‑25 lakh (highly variable)
- Zero cost control beyond “please use less”
- Downtime during rate limiting
Bifrost와 함께
- Per‑developer budget caps and real‑time tracking
- Monthly cost: ₹5‑10 lakh (controlled routing + caching)
- Automatic failover during rate limiting
- Finance team gets weekly cost reports by team
- 11 µs gateway overhead; developers don’t notice it
시작하기
npx -y @maximhq/bifrost
# Open http://localhost:8080
# Add providers → Create virtual keys → Distribute to developers
GitHub: https://git.new/bifrost
문서: https://getmax.im/bifrostdocs
웹사이트: https://getmax.im/bifrost-home