Cohere, 단일 H100으로 구동되는 코딩 에이전트 오픈소스 공개

발행: (2026년 6월 10일 AM 06:41 GMT+9)
11 분 소요

Source: VentureBeat

에이전트 기반 코딩 파이프라인을 구축하는 엔지니어링 팀은 이제 Claude Fable 5와 같은 관리형 모델에 대한 구체적인 오픈소스 대안을 갖게 되었습니다—단일 H100에서 실행되는 모델입니다. 트레이드오프는 다음과 같습니다. 화요일에 출시된 Cohere의 North Mini Code는 독립 테스트에서 비교 모델보다 출력 토큰이 3배 많았으며, 이는 대량 생산 워크로드에서 누적되는 과다 출력 비용을 의미합니다.

새로운 오픈소스 모델은 300억 파라미터 혼합 전문가(MoE) 모델이며, 토큰당 30억 파라미터가 활성화됩니다. 서브‑에이전트 오케스트레이션, 아키텍처 매핑, 코드 리뷰, 터미널 작업 등을 포함한 에이전트 기반 소프트웨어 엔지니어링을 위해 설계되었습니다. 모델은 256,000 토큰 컨텍스트 윈도우와 64,000 토큰 최대 생성 길이를 지원하며, Apache 2.0 라이선스로 Hugging Face에서 제공됩니다.

North Mini Code가 할 수 있는 일

North Mini Code는 전체 에이전트 기반 코딩 스택을 목표로 합니다. 모델이 수행하는 작업과 실행 환경은 다음과 같습니다.

  • 소프트웨어 엔지니어링
    Cohere는 일반 목적 베이스를 변형한 것이 아니라 에이전트 기반 소프트웨어 엔지니어링 전용으로 North Mini Code를 구축했습니다. 통합된 툴 사용 기능과 교차 사고(interleaved thinking)를 지원하며, Cohere에 따르면 다단계 에이전트 작업 전반에 걸쳐 성능이 향상됩니다.

  • 아키텍처 매핑 및 코드 리뷰
    North Mini Code는 시스템 아키텍처를 분석·매핑하고, 의존성을 드러내며, 대규모 코드베이스에 대한 코드 리뷰를 수행할 수 있습니다. 256,000 토큰 컨텍스트 윈도우 덕분에 단일 컨텍스트 패스로 상당히 큰 다파일 프로젝트를 보유할 수 있습니다.

  • 터미널 기반 에이전트 작업
    이 모델은 터미널 환경에 맞춰 훈련되었으며, 셸 인터랙션, 패키지 스크립트, 명령줄 툴을 처리합니다. Cohere는 실제 터미널 환경에서 에이전트를 테스트하는 Terminal‑Bench v2를 사용해 벤치마크했습니다.

어떻게 만들었는가

North Mini Code는 128명의 전문가 중 8명이 토큰당 활성화되는 희소 혼합 전문가 모델입니다. 추론 시 연산 요구량은 전체 300억 파라미터에도 불구하고 30억 파라미터 모델 수준에 가깝습니다. Cohere 공동창업자인 Nick Frosst는 MLX를 이용해 약 20GB RAM을 사용하는 Mac Studio에서 실행되는 모습을 시연했으며, 이는 그가 로컬 코딩 작업에 직접 사용하는 머신과 동일합니다.

Cohere는 모델을 두 단계의 지도 학습 미세조정 후, 70,000개 이상의 검증 가능한 작업(약 5,000개 레포지토리)에서 보상 기반 강화 학습으로 훈련했습니다. 이 작업들은 SWE‑Bench과 중복 제거되었습니다.

단일 에이전트 스캐폴드에 최적화하는 대신, Cohere는 세 가지 스캐폴드에 걸쳐 훈련했습니다.

  • SWE‑Agent: 풍부한 CLI와 특수 명령을 사용
  • Mini‑SWE‑Agent: 단일 bash 툴과 원시 셸 출력 사용
  • OpenCode: 구조화된 JSON을 반환하는 개별 타입 툴 사용

멀티‑하네스 접근법을 통해 OpenCode 평가에서 10% 포인트 상승을 기록했으며, SWE‑Agent 성능은 유지했습니다.

어디에 들어맞는가

North Mini Code는 이제 Mistral Devstral Small 2, GitHub Copilot, Cursor, Claude Fable 5 등과 경쟁하는 시장에 진입했습니다—각 모델마다 비용 및 배포 트레이드오프가 다릅니다.

Cohere의 주요 벤치마크 비교 대상은 240억 파라미터 밀집 모델인 Mistral Devstral Small 2입니다. 공급업체가 자체 보고한 내부 테스트에 따르면, 동일 하드웨어 구성에서 North Mini Code는 출력 처리량이 2.8배 높고 토큰 간 지연이 30% 낮다고 합니다. 또한 Hugging Face 기술 포스트에서 Cohere는 North Mini Code가 파라미터 수가 4배까지 큰 오픈소스 모델(예: 1,200억 파라미터)보다 최대 4배 빠른 성능을 보인다고 주장했습니다.

Artificial Analysis는 독립적으로 127개 오픈‑웨이트 모델 중 출력 속도 기준 8위를 차지했으며, 초당 210 토큰, 첫 토큰 도착 시간 0.25초(클래스 중앙값 1.95초) 를 기록했습니다. 인텔리전스 인덱스에서는 127개 중 18위였으며, 동일 데이터에서 모델이 7,500만 토큰을 생성해 클래스 중앙값 2,500만 토큰보다 크게 초과했습니다. 대량 에이전트 파이프라인에서는 이러한 과다 출력이 추론 비용과 지연을 가중시킵니다.

“갑자기 사람들은 ‘내가 모델 토큰에서 충분한 경제적 가치를 얻고 있는가?’ 라고 생각하기 시작했어요.” 라고 Frosst는 출시 영상에서 말했습니다. “로컬 배포는 사람들에게 권한을 부여하고 AI가 실제로 그들에게 도움이 되게 만드는 한 방법입니다.”

GitHub Copilot, Cursor, Claude Code는 사용량 기반 혹은 구독 기반 요금제이며 온‑프레미스 옵션이 없습니다. Anthropic의 Claude Fable 5는 현재 가장 능력 있는 관리형 코딩 모델로, 백만 출력 토큰당 $50의 비용이 듭니다. Frosst에게 이 모델은 Fable과 정반대입니다.

“작고, 비용 효율적이며, Apache 2.0 라이선스이고, 로컬에 배포 가능합니다. LLM은 이렇게 가야 합니다. 작고, 오픈소스이며, 투명하고 주권적인 것이 대형, 비싸고, 독점적인 모델보다 낫습니다.” 라고 Frosst는 X에 올린 글에서 적었습니다.

기업에 의미하는 바

생산 환경에서 에이전트 기반 코딩 파이프라인을 구축하는 팀에게 North Mini Code 출시가 의미하는 바는, 몇 달 동안 형성돼 온 의사결정 포인트들을 명확히 해준다는 점입니다.

  • 에이전트 전용 훈련이 이제 기본 평가 기준이 됩니다. 코드에 특화된 미세조정 모델과, 검증 가능한 툴 호출 및 멀티‑하네스 강인성을 갖춘 에이전트 전용 훈련 모델 사이의 구분이 파이프라인 선택에 실질적인 영향을 미칩니다. 에이전트 코딩 능력을 주장하는 모든 모델 공급자는 훈련에 검증 가능한 에이전트 작업을 사용했는지, 아니면 일반 목적 베이스를 변형했는지를 명확히 답변해야 합니다.

  • **과다 출력(Verbosity)**은 벤치마크에 드러나지 않는 숨은 파이프라인 비용입니다. Artificial Analysis는 North Mini Code가 비교 모델보다 출력 토큰이 3배 많다고 측정했으며, 이는 대량 파이프라인에서 추론 비용과 지연을 크게 늘립니다. 실제 워크로드 볼륨에 대한 처리량 테스트가 벤치마크 순위가 놓치는 평가 단계입니다.

  • 가격·배포 선택이 이제 실제 아키텍처 결정이 됩니다. Fable 5는 백만 토큰당 $50, North Mini Code는 단일 H100에서 실행 가능하다는 점에서, 비용 관리·데이터 주권을 중시하는 경우와 관리형 인프라 오버헤드를 감수하는 경우 사이의 명확한 트레이드오프가 존재합니다. 고용량 에이전트 코딩 파이프라인을 운영하는 팀은 두 비용 경로를 실제 워크로드에 맞춰 모델링한 뒤에야 어느 쪽을 선택할지 결정해야 합니다.

0 조회
Back to Blog

관련 글

더 보기 »