왜 나는 AI 작업량의 80%를 Free Local Model에 라우팅하고 (마지막 20%만 비용을 지불하는가)

발행: (2026년 2월 22일 오후 01:11 GMT+9)
10 분 소요
원문: Dev.to

Source: Dev.to

Rayne Robinson

Anthropic가 Claude Cowork을 출시했습니다 — 작업을 스스로 계획하고 실행하며 반복하는 AI 에이전트

시장은 SaaS에 대한 의미만으로 285 억 달러를 단 일주일 만에 잃었습니다.

발표를 보면서 나는 생각했습니다: “내 노트북에서도 똑같이 할 수 있구나.”
Anthropic보다 똑똑해서가 아니라, 경제성이 더 나은 아키텍처를 강요했기 때문입니다.

아무도 이야기하지 않는 문제

클라우드 AI 가격은 토큰당입니다. AI 워크플로가 유용해질수록 비용도 늘어납니다.

  • 검색, 요약, 점수 매기기, 통합을 수행하는 분석 파이프라인을 실행한다면?
    이는 모델 호출 4회가 필요합니다.
  • 이를 50개 항목에 적용한다면?
    이는 200회 호출이 됩니다.

클라우드 요금 기준으로, 한 번의 연구 세션에 5~15 달러가 소모될 수 있습니다.

대부분의 사람들은 비용을 감수하거나 야심찬 무언가를 만들기를 포기합니다. 세 번째 옵션이 있습니다.

듀얼‑모델 오케스트레이션: 패턴

아이디어는 간단합니다: AI 파이프라인의 모든 단계가 가장 똑똑한 모델을 필요로 하는 것은 아닙니다.

단계발생하는 일모델비용
1 – 수집 및 스캔API에서 데이터를 가져오고, 관련성에 따라 필터링하며, 기본 패턴 매칭을 수행합니다.Local 8B‑parameter model$0
2 – 점수 매기기 및 순위 매기기기준을 적용하고, 결과에 가중치를 부여하며, 정렬합니다.Local$0
3 – 중복 제거 및 검증중복을 확인하고, 데이터 품질을 검증하며, 교차 참조합니다.Local$0
4 – 통합 및 판단통찰을 생성하고, 전략적 분석을 수행하며, 미묘한 권고를 제공합니다.Frontier model (Claude, GPT‑4, etc.)Paid tokens

결과: 전체 연산의 약 80 %는 무료 로컬 모델에서 실행됩니다. 실제로 최첨단 인텔리전스가 필요한 약 20 %에 대해서만 클라우드 비용을 지불합니다.

Source:

My Stack (Real Numbers)

  • Hardware: Consumer gaming laptop – RTX 5080 (16 GB VRAM), 32 GB RAM. Not a server, not a data‑center.
  • Local Model: Qwen3 8B running on Ollama inside Docker, GPU‑accelerated. Handles stages 1‑3 at ~30 tokens/second.
  • Cloud Model: Claude API for synthesis/judgment stages only.
  • Infrastructure: PostgreSQL for persistence, Redis for caching/deduplication, all in Docker containers bound to localhost.

Cost comparison for a typical research pipeline (50 items)

ApproachCost per run
전체 클라우드 (Claude/GPT‑4)$8 – $15
전체 로컬 (모든 작업에 8B 모델)$0 (quality drops on synthesis)
이중 모델 (로컬 스캔 + 클라우드 합성)$0.15 – $0.40

That’s a 95 – 97 % cost reduction while maintaining frontier‑quality output where it matters.

실제로 만든 것

  • 시장 스캐너 – Reddit, Hacker News, GitHub, Dev.to를 모니터링하여 내 분야의 기회를 탐색합니다. 수백 개의 게시물을 로컬에서 스캔하고 점수를 매긴 뒤, Redis 캐시와 중복을 제거하고, 상위 후보만 Claude에 전달해 전략적 분석을 수행합니다. 첫 실행에서 26개의 실행 가능한 기회를 발견했습니다. 총 클라우드 비용: 소액.
  • 산업 연구 파이프라인 – 4단계 분석을 수행합니다: 스캔 → 추출 → 분석 → 종합. 처음 세 단계는 모두 로컬 GPU에서 실행되고, 마지막 종합 단계만 클라우드 API를 호출합니다.
  • SaaS 제품 – 이 인프라를 사용해 구축, 테스트, 배포한 제품으로, PaaS 플랫폼에 라이브 상태로 운영되며 결제 처리기에 제품이 등록되어 있습니다. 개념 단계에서 라이브까지 며칠 안에 완료했으며, 몇 달이 걸리지 않았습니다.

함정 (무료는 없으니까)

  • 로컬 모델에는 특이점이 있습니다. Qwen3 8B는 특정 API 엔드포인트를 통해 과도한 “생각” 토큰을 생성합니다. /api/generate 대신 /api/chat 를 사용하고, 프롬프트를 구성해 체인‑오브‑생각을 억제하세요. 이 문제를 해결하는 데 몇 시간을 허비했습니다.
  • GPU 메모리는 한정되어 있습니다. 16 GB VRAM이면 8B 모델을 여유롭게 실행할 수 있습니다. 그보다 큰 모델은 양자화 트레이드‑오프가 필요합니다. 하드웨어 한계를 파악하세요.
  • Windows에서 Docker 네트워킹은 까다롭습니다. 일부 머신에서는 localhost 가 IPv6 로 해석되지만 Docker는 IPv4만 바인딩합니다. 127.0.0.1 을 명시적으로 사용하세요. 사소한 문제지만, 모르면 오후 내내 시간을 낭비하게 됩니다.
  • 오케스트레이션 레이어는 여러분의 책임입니다. 클라우드 API는 하나의 엔드포인트만 제공합니다. 듀얼‑모델을 사용한다면 직접 라우팅 로직을 작성해야 합니다 — 어떤 단계가 로컬에서, 어떤 단계가 클라우드에서 실행될지, 실패를 어떻게 처리할지 등. 플러그‑앤‑플레이가 아닙니다.

왜 지금 중요한가

Claude Cowork, Devin, 그리고 유사한 AI 에이전트는 모두 클라우드‑전용 아키텍처에서 실행됩니다. 인상적이지만, 모든 토큰이 다른 사람의 서버를 거쳐 다른 사람의 가격으로 처리됩니다.

로컬‑우선 하이브리드 접근 방식이 제공하는 이점:

  • Cost control – 고정 하드웨어 비용, 실행당 거의 제로에 가까운 한계 비용
  • Privacy – 파이프라인의 80 % 구간에서 데이터가 절대 머신을 떠나지 않음
  • Speed – 로컬 단계에서 네트워크 지연 없음
  • Independence – API가 중단되거나 가격이 상승해도 도구가 계속 작동

이를 위한 하드웨어 비용은 6 개월 이하의 Max‑tier AI 구독 비용보다 적습니다. 그 이후로는 영원히 당신의 것입니다.

The Bigger Idea

저는 제 설정을 “로컬 AI 설치”가 아니라 툴 팩토리로 생각하기 시작했습니다. 오케스트레이션 패턴은 재사용이 가능합니다. 제가 새로 만드는 각 툴은 저렴하게 스캔하고, 똑똑하게 합성한다는 이중 모델 아키텍처를 물려받습니다. 팩토리 자체는 운영 비용이 전혀 들지 않으며, 그가 생산하는 툴도 거의 비용이 들지 않습니다.

Anthropic이 Cowork을 발표했을 때, AI 에이전트가 이제 지식 작업을 자율적으로 수행할 수 있게 되면서 시장이 패닉에 빠졌습니다. 하지만 진정한 파괴는 에이전트 자체가 아니라 경제성입니다. 이제 질문은 “AI가 이 일을 할 수 있나요?” 가 아니라 “누가 비용을 지불하나요?” 입니다.

“컴퓨팅 비용은 얼마이며, 얼마나 많이 쓰나요?”

저는 그 질문에 $2,000 노트북과 몇 개의 Docker 컨테이너로 답했습니다.

소비자 하드웨어에서 로컬 AI 인프라를 운영합니다. 저는 실용적인 AI 아키텍처—패턴, 함정, 실제 비용—에 대해 글을 씁니다. 이 시리즈는 계속됩니다.

0 조회
Back to Blog

관련 글

더 보기 »