나는 AI 질문 4개에 $12를 썼다. 그 후 Linux Foundation이 MCP를 공식화했다.

발행: (2025년 12월 15일 오후 10:10 GMT+9)
7 min read
원문: Dev.to

Source: Dev.to

왜 나는 Assistants API를 선택했는가 (그리고 여러분도 그럴 가능성이 높은 이유)

솔직히 말하자면: Assistants API는 정말 인상적입니다. 개발자 경험이 뛰어납니다. 나를 끌어들인 이유는 다음과 같습니다:

The Promise

  • Built‑in RAG out of the box → 기본 제공 RAG
  • Persistent conversation threads → 지속적인 대화 스레드
  • Automatic tool calling → 자동 툴 호출
  • File upload and instant querying → 파일 업로드 및 즉시 질의
  • “Just works” in 2 hours → 2시간 안에 “그대로 작동”

The Appeal

FPL Hub(2,000명 이상 사용자, 하루 500 K+ API 호출)를 운영하는 사람으로서 관리형 인프라의 가치를 잘 알고 있습니다. Assistants API는 올바른 추상화 레이어처럼 느껴졌습니다. 청크 전략, 벡터 스토어, 컨텍스트 윈도우를 직접 관리할 필요 없이 OpenAI가 모두 처리해 주니까요.

PDF를 업로드하고 질문을 했으며 정확한 답변을 받았습니다. 프로토타입은 아름답게 작동했지만—청구서를 확인하기 전까지는요.

아무도 경고하지 않는 숨은 비용 구조

OpenAI의 가격 페이지에는 다음과 같이 적혀 있습니다:

  • GPT‑4o: $5 input / $15 output per 1 M tokens
  • Code Interpreter: $0.03 per session
  • File Search: $0.10 / GB / day

합리적으로 보이지만 실제 청구액은 놀라울 수 있습니다.

“단순” 질의에 대한 실제 계산

PDF (10 pages, ~5K tokens)

Vector Store automatic chunking → 50,000 tokens

Retrieval augmentation per query → 20,000 tokens

Context window (conversation history) → 8,000 tokens

Tool call overhead → 3,000 tokens

Your actual query + response → 250 tokens
────────────────────────────────────
Total per question: ~81,000 tokens = $0.81

네 개 질문의 세부 내역

  • Model costs: $3.24 (324 K tokens)
  • Code Interpreter sessions: $0.06
  • File Search storage (3 days): $0.30
  • Hidden retrieval costs: $8.87

Total: $12.47

비용이 급증하는 이유

  1. 제어할 수 없는 토큰 곱셈 – Assistants API는 문서를 자동으로 청크화해 벡터 검색에 사용합니다. 5 K‑토큰 PDF가 저장 시 약 50 K 토큰이 되고, 각 검색마다 다시 곱해집니다.
  2. 컨텍스트 윈도우 팽창 – 모든 후속 질문이 전체 대화 기록을 다시 로드합니다. 질문 1은 $0.81이지만, 질문 4가 되면 누적된 컨텍스트 때문에 $3.50까지 올라갑니다.
  3. 스토리지 요금이 일일히 누적 – $0.10 / GB / day는 빠르게 합산됩니다:
    • 1 GB 문서 ≈ $3 / 월
    • 10 GB 지식 베이스 ≈ $30 / 월
  4. 숨은 검색 비용 – File Search 툴은 청크를 검색할 뿐 아니라 각 질의에 청크를 추가해 임베딩, 유사도 검색, 프롬프트 토큰 비용을 대화 기록과 곱합니다.

실제 비용 전망

고객 지원 봇 (하루 1 K 대화)

  • 대화당 5 메시지
  • 지식 베이스 문서 2개 (≈500 페이지)
  • 스토리지: $6 / day → $180 / month
  • 질의: ~300 K 토큰/day → $300 / day

Total: ≈ $9 180 / month

문서 분석 앱

  • 사용자가 PDF 5개(≈250 페이지) 업로드
  • 문서당 질문 10개, 각 질문당 후속 3개

사용자 세션당 비용: $45
100명 사용자: $4 500 / month

내 실제 사용 사례

  • 테스트 질문 4개, 작은 PDF(10 페이지) 1개, 대화 스레드 2개

Cost: $12.47 → 1 K 사용자를 가정하면 $3 100 / month 예상.

MCP 대안: 동일 기능, 99 % 비용 절감

MCP란?

Model Context Protocol (MCP)은 AI 모델을 데이터 소스와 툴에 연결하기 위한 오픈 표준으로, AI용 USB‑C라고 생각하면 됩니다. 2025년 12월 9일 현재, 공식 Linux Foundation 프로젝트입니다.

창립 멤버에는 Anthropic, OpenAI, Google, Microsoft, AWS, Cloudflare, Bloomberg, Block 등이 포함됩니다.

아키텍처 비교

기존 Assistants API 흐름

flowchart LR
    A[User] --> B[OpenAI API]
    B --> C[Thread Storage]
    B --> D[Vector Store]
    B --> E[GPT‑4]
    E --> F[Response]
    style C fill:#f9f,stroke:#333,stroke-width:2px
    style D fill:#f9f,stroke:#333,stroke-width:2px

Metered components: thread storage ($0.10 / GB / day), vector store retrieval, token usage.

MCP 흐름

flowchart LR
    A[User] --> B[MCP Client]
    B --> C[Your MCP Server]
    C --> D[Cloudflare Workers]
    D --> E[Any Model]
    E --> F[Response]

You control storage and retrieval; Cloudflare Workers provide 10 M free requests/month.

주요 아키텍처 차이점

  1. 클라이언트‑사이드 메모리 – 대화 상태가 클라이언트에 저장돼 일일 스토리지 요금이 사라집니다.

  2. 멀티‑모델 지원 – 하나의 MCP 서버가 모든 모델에 라우팅할 수 있습니다:

    // Switch models per request
    const response = await mcp.callTool("search_documents", {
      query: userQuery,
      model: "groq/llama-3.3-70b-versatile" // Free tier
    });
  3. Cloudflare Workers에 엣지 배포 – 전 세계에 몇 분 만에 배포 가능하며 콜드 스타트가 없습니다:

    export default {
      async fetch(request, env) {
        const mcp = new MCPServer(env);
        return mcp.handle(request);
      }
    };
  4. 완전한 비용 제어 – 청크 제한, 캐싱, 모델 가격을 요청 전 직접 결정합니다:

    const searchConfig = {
      maxChunks: 3,
      chunkSize: 500,
      cacheStrategy: "lru",
      model: "groq-free"
    };
    
    const estimatedCost = calculateTokens(chunks) * modelPrice;
    if (estimatedCost > threshold) {
      // fallback to cheaper model or reduce chunks
    }

내 MCP 구현

// MCP Server on Cloudflare Workers
import { MCPServer } from "@modelcontextprotocol/sdk";

interface MCPTools {
  search_documents: (query: string, maxChunks?: number) => Promise;
  analyze_pdf: (fileId: string) => Promise;
  summarize_conversation: () => Promise;
}

// Cost breakdown for the same 4 questions:
const costs = {
  workersAI_embeddings: 0.011 / 1000, // $0.001 per 1 K tokens (example)
  vectorize_storage: 0,               // Included in free tier
  // ...additional cost items as needed
};

MCP를 사용하면 동일한 네 질문 워크플로우가 Assistants API에서 사용한 $12.47에 비해 극히 일부만 비용이 발생합니다. 이는 오픈 프로토콜이 AI 기반 애플리케이션 비용을 크게 낮출 수 있음을 보여줍니다.

Back to Blog

관련 글

더 보기 »