OpenRouter의 5.5% 세금과 내가 만든 대안

발행: (2026년 6월 15일 PM 10:05 GMT+9)
12 분 소요
원문: Dev.to

출처: Dev.to

세계 상위 10개의 오픈소스 LLM 중 9개는 현재 중국산이다. GLM‑5.2가 출시된 뒤, OpenRouter의 제안은 공정하다: 한 키로 400개 이상의 모델, 투명한 가격.

청구 페이지를 자세히 살펴보라. 모든 신용카드 충전은 5.5%(최소 $0.80)를 추가한다. 암호화폐 충전도 5%를 더한다. 토큰 가격은 “원가대로” 보이지만, 커뮤니티 벤치마크를 확인하고 DeepSeek‑R1이 해당 시간에 라우팅된 기본 제공업체보다 약 15% 더 비싸다는 사실을 알게 된다.

취미 프로젝트에서는 눈에 띄지 않는다. 하지만 실제 워크로드를 실행하는 사람에게는 금방 불편해진다.

$10,000/월 인퍼런스 비용 → 약 $550/월 라우팅 세금
$100,000/월 → 약 $5,500/월
$1,000,000/월 → 약 $55,000/월

그건 반올림 오류가 아니다. 엔지니어 연봉이다. 그리고 당신은 Cloudflare 워커와 10줄의 Go 코드만으로 할 수 있는 것을 이 세금을 내고 있다.

저는 OpenRouter 대안으로 haotokai를 만들었습니다. 그 수치를 본 사람 중 하나로서 답은: 이 정도는 작은, 저렴하고 좁은 도구가 필요하다.

이건 제가 똑똑해 보이려는 것이 아니다. 주요 LLM 인프라 서브레딧들은 지난 12개월 동안 같은 의견을 다양한 표현으로 써왔다:

  • “대규모에서는 5.5% 수수료가 아쉽다.”
  • “실험에는 OpenRouter를 사용하고, 프로덕션에서는 직접 API 또는 BYOK 라우터로 이동한다.”
  • “실제 라우팅은 이루어지지 않는다. 여전히 모델을 직접 선택한다.”

이 인용구는 표본 편향된 예외가 아니다. “OpenRouter 요금”을 r/LocalLLaMA 혹은 OpenRouter 디스코드에서 검색하면 2025년 시작 이후 매월 동일한 스레드가 나타난다.

제품은 좋다. 세금은 실질적이다. 두 문장은 모두 사실이다.

두 번째로 조용하지만 생산성에 더 중요한 불평이 있다:

  • “OpenRouter에서 제공업체가 반환한 오류가 모델 장애조작을 촉발하지 않는다.”
  • “레이트 한도 오류가 자동 장애조작 대신 사용자에게 노출된다.”

그래서 5.5% 라우팅 요금을 내지만, 많은 사용자들이 라우팅이 기대와 다르게 장애조작을 수행하지 않는다고 보고한다. 그 격차가 바로 제가 구현하기 시작한 부분이다.

Alex와 OpenRouter 팀에게 공정히 말하면, 이 5.5%는 카드 처리, 사기 위험, 환불, 프론트엔드, 대시보드, 리더보드, Auto Router, 그리고 5만 명 이상의 Discord 멤버를 포함하는 실제 서비스 비용을 커버한다는 점을 감안해야 한다.

하지만 이는 내가 절대 호출하지 않을 400개 모델, 필요 없는 마켓플레이스, 그리고 나 개인적으로는 고객이 되지 않는 ‘모두에게 다 제공하는’ 수준을 포함한다.

저는 인디 해커입니다. 호출하는 모델은 네 개뿐입니다: DeepSeek‑V4 / DeepSeek‑R1(코드와 추론용), Kimi K2(장기 컨텍스트 문서 작업, 2M 컨텍스트 윈도우, 솔직히 말해), Qwen3(다국어 작업), GLM‑4.6(백업 추론 모델).

그게 전부입니다. 중국 오픈소스 계열 세 개와 GLM.

2026년 중반 리더보드를 보면, 이 중 9개가 전 세계 상위 10개에 해당합니다. 그들이 미국 밖에 구축됐다는 사실은 기술적으로는 무관합니다. ониsit atop the same evaluation benchmarks that everyone else uses.

그래서 2025년 10월에 스스로에게 묻던 질문은: 이 네 모델 가족만 잘 수행하도록 설계된 OpenRouter 대안은 어떤 모습일까?

제가 내린 위치는 다음과 같다, 그리고 홈페이지에 적어 놓는 문장이다:

중국 밖에서 DeepSeek, Kimi K2, Qwen을 가장 저렴하게 이용하는 방법 — 하나의 기본 URL, OpenAI 호환, 마크업 없음, 구독 없음.

그게 전부다. 400개 모델도 없고, 리더보드도 없고, Auto Router도 없고, 구독 계층도 없고, 카드 수수료 5.5%도 없다. $1부터 pay‑as‑you‑go.

거래는 솔직하다: 폭을 포기하고, 2026년 대부분의 인디 작업에 실제로 기여하는 네 모델 가족에 대한 패스‑투‑패싱 가격을 얻게 된다.

OpenAI, Claude, Gemini을 한 키로 원한다면 OpenRouter가 여전히 적절한 도구다. 특권을 부과하지 않는 DeepSeek API 프록시를 원한다면 OpenRouter 대안이 ciò가 필요하고, 아마도 내가 생각하는 위치를 짐작할 것이다.

이동은 모든 OpenAI 호환 제공업체 간 이동과 동일하다. 기본 URL만 교체하면 된다. 그게 전부다.

from openai import OpenAI

client  = OpenAI(
-     api_key="sk-or-v1-xxxxxxxx",
-     base_url="https://openrouter.ai/api/v1",
+     api_key="sk-haotokai-xxxxxxxx",
+     base_url="https://api.haotokai.com/v1",
   )

스트리밍이 동작한다. 툴 호출이 동작한다. JSON 모드가 동작한다. 동일한 Chat Completions 스키마와 오류 캡슐화가 유지된다.

OpenRouter에 맞춰진 코드는 haotokai에서도 한 줄만 바꾸면 동작한다.

스택에 연결하기 전에 curl로 테스트해 보자. 내가 모든 게이트웨이를 평가할 때 사용하는 테스트다:

curl https://api.haotokai.com/v1/chat/completions \
   -H  "Authorization: Bearer $HAOTOKAI_API_KEY" \
   -H  "Content-Type: application/json" \
   -d '{ 
     "model":  "deepseek-reasoner", 
     "messages": [
       {"role":  "user",  "content":  "In one sentence: why does a 5.5% routing fee compound badly at scale?"}
     ], 
     "max_tokens": 120 
   }'

200 상태와 정상 choices[0].message.content을 반환하면 작업이 끝났다.

같은 curl과 동일한 경로, 동일한 JSON으로 kimi‑k2, qwen3‑max, glm‑4.6에서도 동작한다. 모델 문자열만 바뀐다.

OpenAI 호환 게이트웨이의 전체 UX 약속이며, Kimi K2 API 국제 접근이 재학습 없이 가능하도록 만든 이유다.

저는 매일 이걸 사용해 같은 프롬프트로 네 개의 중국 오픈소스 최신 모델을 병렬로 비교한다. 스크립트는 질문과 함께 각 호출 비용을 출력해, 실제 중국 밖 Qwen API 호출 비용이 OpenRouter 견적과 어떻게 다른지 보여준다.

import os
from concurrent.futures import ThreadPoolExecutor
from openai import OpenAI

client  = OpenAI(
    api_key=os.environ["HAOTOKAI_API_KEY"],
    base_url="https://api.haotokai.com/v1",
)

PROMPT  = "In 50 words: when is a 5.5% routing fee actually worth paying?"

# haotokai에서 전달하는 가격 (1M 토큰당 입력/출력 USD) 
PRICES  = { 
     "deepseek-reasoner":  (0.55, 2.19), 
     "kimi-k2":            (0.27, 1.10), 
     "qwen3-max":          (0.30, 1.20), 
     "glm-4.6":            (0.50, 1.50), 
}

def ask(model: str): resp = client.chat.completions.create( model=model, messages=[{“role”: “user”, “content”: PROMPT}], max_tokens=120, ) in_tok = resp.usage.prompt_tokens out_tok = resp.usage.completion_tokens p_in, p_out = PRICES[model] cost = (in_tok * p_in + out_tok * p_out) / 1_000_000 return model, cost, resp.choices[0].message.content.strip()

with ThreadPoolExecutor(max_workers=4) as ex: for model, cost, answer in ex.map(ask, PRICES): print(f”\n[{model}] ${cost:.6f}”) print(answer)


화요일 오후에 실행하면 총 청구액이 0.1센트 미만이다.

같은 스크립트를 OpenRouter에 돌리고 토큰 비용에 5.5%와 제공업체 마크를 더한다.

단일 개발 세션에서는 이 차이가 눈에 띄지 않는다. 주간 50,000개 후보 프롬프트를 평가하는 CI 파이프라인에서는 그렇지 않다.

제가 가장 중요하게 여기는 세 가지 이유, 그 순서대로:

1. 모델 시장 구조는 영구적이다. 2026년 오픈소스 톱 10 중 9개가 중국산이며, 이는 2027년까지 바뀔 일이 unlikely하다.
2. 전 세계 스택은 해당 모델에 대한 깨끗한 OpenAI 스타일 경로를 필요로 하며, OpenRouter는 현재 그 경로를 제공하는 몇 안 되는 도구 중 하나이며, 비용으로 5.5%를 부과한다.
3. 인디 비즈니스와 엔터프라이즈 비즈니스는 다르다. 한 명 팀이 제품을 출시할 때는 400개 모델을 필요로 하지 않으며, 실제로 사용하는 네 모델에 대해 패스‑투‑패싱 가격으로 $1 최소 충전만 필요하다.
   인디 해커를 위한 저렴한 Claude API는 SOC 2와 SSO를 갖춘 엔터프라이즈 게이트웨이와는 다른 제품이며, 둘 다 존재해야 한다.
4. OpenAI 호환은 게이트웨이를 상품화한다. 모두가 동일한 Chat Completions 스키마를 사용하면 게이트웨이 전환이 한 줄 차이만 발생한다. 사용자에게는 이점이지만, 고객을 소유한다고 믿는任何 게이트웨이는 불리해진다.
   게이트웨이가 할 수 있는 올바른 대응은 더 적게 받고 범위를 좁히는 것이지, 더 많이 받고 기능을 추가하는 것이 아니다.
0 조회
Back to Blog

관련 글

더 보기 »