OpenCode Go + Oh My OpenAgent: 실제로 비용을 절감하는 모델 라우팅 설정
출처: Dev.to
대부분의 OpenCode Go 가이드가 모델부터 시작합니다. 나는 대부분의 가이드가 놓치는 부분, 즉 제한이 달러 단위로 표시된다는 점부터 시작하고 싶습니다. 요청 수가 아니라 달러라는 점이죠.
그것은 사소한 차이처럼 보일 수 있지만, 그렇지 않습니다.
OpenCode Go는 첫 달에 $5, 이후 매월 $10이 청구됩니다. 사용 한도는 5시간 창당 $12, 주당 $30, 월당 $60입니다.
예를 들어 DeepSeek V4 Flash에 $12를 쓰면 약 31,650개의 요청을 할 수 있습니다. 같은 $12를 GLM‑5.1에 쓰면 약 880개의 요청만 가능합니다. 동일 예산이지만 볼륨 차이가 36배나 나는 겁니다.
이 때문에 라우팅이 실제로 중요합니다. 하나의 모델만 골라 모든 작업에 쓰면, 필요 없는 작업에 프리미엄 요청을 소모하거나, 놀라울 정도로 능력 있는 저렴한 모델을 충분히 활용하지 못하게 됩니다. 올바른 접근은 각 작업이 실제로 요구하는 수준에 맞춰 모델을 할당하는 것입니다.
MiniMax M2.5는 비용과 무관하게 월 100,000 요청이라는 하드 캡을 가지고 있습니다. 약 10 B 파라미터만 활성화되며, 입력 토큰당 Claude Opus 4.6보다 16.7배 저렴합니다. 대량 저복잡도 작업에는 명백히 최적이며, 대부분의 사람들은 이 모델이 존재한다는 사실조차 모릅니다.
예를 들어 모든 작업을 DeepSeek V4 Pro에 맡긴다고 가정해봅시다. 5시간 창당 10,200 요청을 할 수 있습니다. 가벼운 사용이라면 괜찮아 보이지만, Oh My OpenAgent는 여러 에이전트를 병렬로 실행합니다. Prometheus는 작업을 분해하고, Metis는 컨텍스트를 합성하며, Atlas는 순서를 관리하고, Sisyphus는 실행을 담당하고, Librarian는 문서를 읽습니다. 하나의 복합 작업이 30~50개의 요청으로 확장될 수 있으며, 사용자는 아무것도 하지 않아도 됩니다. 5시간 예산이 몇 시간 안에 금방 사라집니다.
문제는 품질 격차가 아니라, 모든 단계에 높은 품질이 필요하지 않다는 점입니다. V4 Pro는 80.6%로 Claude Opus 4.7(87.6%)과 7% 차이밖에 나지 않으며, 대부분의 일상 티켓에서는 그 차이가 눈에 띄지 않습니다. 다중 에이전트 워크플로우의 모든 단계에 그 품질을 사용할 필요는 없습니다.
아래는 코딩 작업에 의미 있는 벤치마크 점수와 라우팅 계산에 영향을 주는 API 가격을 정리한 표입니다.
| 모델 | SWE‑Bench Verified | 입력 가격 (M 토큰당) | 5시간 창당 요청 수 ($12) | 컨텍스트 |
|---|---|---|---|---|
| Claude Opus 4.7 | 87.6% | $5.00 | ~480 | 200K 토큰 |
| DeepSeek V4 Pro | 80.6% | $0.435 (프로모션, 5월 31일 종료) | ~5,500 | 1M 토큰 |
| Kimi K2.6 | 80.2% | $0.95 | ~2,500 | 256K 토큰 |
| Claude Sonnet 4.6 | 79.6% | $3.00 | ~800 | 200K 토큰 |
| MiMo‑V2.5‑Pro | 78.9% | ~$0.40 | ~6,000 | — |
| Qwen3.6 Plus | 78.8% | $0.325 | ~7,400 | 1M 토큰 |
| DeepSeek V4 Flash | ~79.0% | $0.14 | ~17,000 | 1M 토큰 |
| GLM‑5.1 (SWE‑Bench Pro) | 58.4% | ~$1.50 | ~1,600 | 200K 토큰 |
| Qwen3.5 Plus | — | $0.08 | ~30,000 | — |
| MiniMax M2.5 | — | $0.03 | 월 100K 요청까지 | — |
(5시간 창당 요청 수는 평균 2,500 토큰/요청을 기준으로 계산되었습니다.)
참고: Kimi K2.6 원본 시리즈는 2026 년 5월 25일에 단종되었습니다. 모델 자체는 여전히 사용 가능하지만, 업데이트는 제공되지 않습니다. DeepSeek V4 Pro의 프로모션 가격($0.435/M)은 5월 31일에 종료되며, 이후 가격이 상승해 창당 요청 수 계산이 변합니다.
Claude Opus 4.7은 현재 코딩 작업에 가장 강력한 모델이며 V4 Pro보다 7점 높습니다. 하지만 토큰당 $5는 DeepSeek V4 Flash보다 35배 비쌉니다. $12/5시간 창에서는 Opus 4.7을 약 480번, Flash를 약 17,000번 사용할 수 있습니다.
DeepSeek V4 Flash는 벤치마크 성능이 V4 Pro와 1점 차이 정도이지만 토큰당 비용은 약 3배 낮습니다. 대부분의 일상 코딩 작업에서는 이 차이가 실질적으로 드러나지 않습니다. Flash는 총 284 B 파라미터 중 13 B만 활성화하고, V4 Pro는 총 1.6 T 파라미터 중 49 B를 활성화합니다.
Kimi K2.6은 1 트릴리언 파라미터 MoE 모델로 활성 파라미터는 32 B이며, SWE‑Bench Verified 80.2%를 기록했습니다. 이는 Qwen3.6 Plus보다 높고 V4 Pro와 근접해, V4 Flash가 막히는 경우 진짜 어려운 다단계 추론에 적합합니다.
GLM‑5.1은 총 744 B / 활성 40 B 파라미터이며, 200K 컨텍스트를 제공해 깊은 계획 작업에 유리합니다. 중간 가격대에서 Oracle 및 Prometheus 역할을 잘 수행합니다.
Oh My OpenAgent v4.2.3 (2026 년 5월 기준, GitHub ★48K+) 아키텍처
- Planning Layer – 전략적 분해와 지식 합성을 담당.
- Prometheus: 해야 할 일을 분해
- Metis: 컨텍스트와 사전 지식 합성
- Orchestration Layer – Atlas가 담당. Todo‑list 관리, 순서 강제, 완료 추적. 실제 작업을 수행하지는 않음.
- Execution Layer – 작업 실행. 기본 오케스트레이터 Sisyphus는 32K 확장 사고 예산을 가짐. 9개 이상의 특화 에이전트가 다양한 작업 유형을 처리.
v4.0.0에서 Team Mode가 도입돼 훅이 7개 추가(총 61개, 표준 모드 54개)되었습니다. 병렬 워크스트림을 운영한다면 활성화하는 것이 좋으며, 기본값은 비활성입니다.
아래는 커뮤니티가 권장하는 에이전트‑모델 매핑이며, 다수의 시행착오를 거쳐 만든 실전 배치입니다.
| 에이전트 | 기본 모델 | 대체 모델 |
|---|---|---|
| Sisyphus | Kimi K2.6 | DeepSeek V4 Pro → Qwen3.6 Plus |
| Hephaestus | DeepSeek V4 Pro | DeepSeek V4 Flash → Kimi K2.6 |
| Oracle | GLM‑5.1 | Kimi K2.6 → DeepSeek V4 Pro |
| Librarian | DeepSeek V4 Flash | Qwen3.5 Plus |
| Explore | DeepSeek V4 Flash | 없음 |
| Prometheus | GLM‑5.1 | Qwen3.6 Plus → DeepSeek V4 Pro |
| Metis | Qwen3.6 Plus | DeepSeek V4 Pro |
| Atlas | DeepSeek V4 Pro | DeepSeek V4 Flash |
| Code‑reviewer | Kimi K2.6 | DeepSeek V4 Pro |
| Multimodal‑Looker | MiMo‑V2.5‑Pro | Qwen3.6 Plus |
- Sisyphus는 32K 토큰까지 확장 사고가 가능하므로 가장 강력한 추론 모델인 Kimi K2.6을 사용합니다. 256K 컨텍스트 윈도우가 긴 실행 추적을 처리합니다.
- Librarian와 Explore는 문서 조회·컨텍스트 확보가 주 업무이므로 비용 효율이 높은 V4 Flash를 사용합니다. 이 단계에 프리미엄 모델을 쓰는 것은 가장 흔한 예산 낭비 사례입니다.
- Oracle와 Prometheus는 깊은 계획·추론이 필요해 GLM‑5.1이 적합합니다. 가장 저렴한 모델은 아니지만, 가장 비싼 모델도 아니며 복합 분해 작업에 강합니다.
- Hephaestus(주요 코딩 에이전트)는 기본 모델을 V4 Pro로, 대체 모델을 V4 Flash로 설정했습니다. 두 모델 간 격차가 작아 간단한 코딩 작업에서는 Flash로도 충분히 커버됩니다.
- Multimodal‑Looker에 MiMo‑