샤오미 신형 오픈소스 에이전트 AI 코딩 툴 MiMo Code, 200단계 초장기 과제에서 Claude Code 능가

발행: 17시간 전 (2026년 6월 12일 AM 08:14 GMT+9)

12 분 소요

샤오미의 MiMo AI 팀은 MiMo Code V0.1.0을 오픈소스로 공개했습니다. 이는 터미널 기반 AI 코딩 어시스턴트로, 샤오미는 이 도구가 Anthropic의 Claude Code보다 주요 에이전시 코딩 벤치마크에서, 특히 장기(200단계 이상) 다단계 작업에서 뛰어나다고 주장합니다. 이 주장은 자체 베타 릴리스와 576명의 개발자를 대상으로 한 설문 조사에 기반합니다.
또한 한정 기간 동안 무료로 MiMo-V2.5(백만 토큰 컨텍스트 윈도우를 갖춘 멀티모달 플래그십 모델)에 접근할 수 있도록 제공하며, 별도 회원가입 없이 바로 사용할 수 있습니다.

이 릴리스는 2026년 6월 10일, 공식 X 계정 @XiaomiMiMo가 X(구 트위터)에 올린 게시물에서 발표되었습니다. 해당 게시물은 이 도구를 “터미널 안의 AI 코딩 어시스턴트를 넘어, 여러분이 일해 본 가장 똑똑한 코딩 파트너”라고 설명했습니다.

MiMo Code는 현재 GitHub에서 MIT 라이선스로 제공되며, macOS와 Linux에서는 단일 터미널 명령어로 설치할 수 있습니다.

curl -fsSL https://mimo.xiaomi.com/install | bash

Windows에서는 npm을 통해 설치합니다.

npm install -g @mimo-ai/cli

이 프로젝트는 오픈소스 OpenCode 에이전트를 포크한 것으로, 샤오미는 자체 메모리 아키텍처, 워크플로우 모드, 모델 하네스를 추가했습니다.

AI 코딩 에이전트의 기억 상실(Amnesia) 종말?

열정적인 코더라면 누구나 겪어봤을 겁니다. AI 코딩 에이전트는 긴 작업 세션 동안 성능이 저하됩니다. 컨텍스트 윈도우가 가득 차면 초기 결정, 규칙, 작업 상태가 압축되거나 완전히 사라져 개발자는 프로젝트를 다시 설명해야 하는 상황에 처합니다.

샤오미는 이런 접근법이 규모에선 한계가 있다고 주장합니다. “우리가 필요한 것은 더 나은 압축이 아니라, 어떤 정보를 영구 구조에 기록하고 언제 불러와야 할지를 결정하는 명시적인 저장‑검색 메커니즘”이라고 MiMo 팀은 런칭 블로그에 적었습니다.

MiMo Code는 SQLite FTS5 전체 텍스트 검색을 기반으로 하는 크로스‑세션 메모리 시스템을 도입해 네 가지 레이어를 제공합니다.

프로젝트 메모리 – MEMORY.md 파일에 영구 저장
세션 체크포인트
스크래치 노트
작업별 진행 로그

노트 작성이 핵심입니다. 기본 코딩 에이전트가 작업을 멈추고 메모를 남기는 대신, 독립적인 “체크포인트‑라이터” 서브에이전트가 이를 담당합니다.

이를 건축 현장에 비유하면, 메인 에이전트는 거대한 저택을 짓는 건설업자이고, 체크포인트‑라이터는 실시간으로 설계도를 업데이트하는 전담 건축가와 같습니다. 컨텍스트 윈도우가 한계에 다다르면(건설업자가 반쯤 완성된 저택에 빠져 길을 잃는 상황) 서브에이전트에게 상황을 물어 다시 제자리에 설 수 있습니다. MiMo Code에서는 구조화된 체크포인트와 관련 컨텍스트를 재구성해 작업 흐름이 끊기지 않게 합니다.

두 가지 자체 개선 메커니즘도 포함됩니다.

/dream 명령 – 약 7일 주기로 과거 세션을 검토·중복 제거·압축해 장기 메모리로 전환
distill 기능 – 과거 세션에서 반복되는 워크플로를 추출해 자동화 (최근 OpenAI와 Anthropic이 모델에 적용한 방식과 유사)

소프트웨어 엔지니어링(SWE) 벤치마크에서 인상적인 성능

샤오미 기술 블로그에 공개된 벤치마크 결과에 따르면, MiMo Code와 MiMo‑V2.5‑Pro 조합은 Claude Code와 Claude Sonnet 4.6 조합을 모든 테스트에서 앞섰습니다.

벤치마크	MiMo Code	Claude Code
SWE‑bench Verified	82%	79%
SWE‑bench Pro	62%	55%
Terminal Bench 2	73%	69%

동일 모델(MiMo‑V2.5‑Pro)을 양쪽 하네스에 적용했을 때도 차이가 남습니다. MiMo Code는 SWE‑bench Pro에서 62%, Terminal Bench 2에서 73%를 기록했으며, Claude Code는 각각 57%와 68%에 그쳤습니다. 즉, 모델 자체가 아니라 에이전트 시스템 덕분에 약 5점씩 상승한 것입니다.

샤오미는 OpenAI Codex나 Google Gemini CLI와의 비교는 공개하지 않았으며, Claude Code만을 유일한 경쟁자로 명시했습니다. 이는 벤치마크 목표를 의도적으로 제한한 것으로 해석됩니다.

다른 독립적인 자료를 보면 상황이 더 명확해집니다. tbench.ai에서 관리하는 공식 Terminal‑Bench 2.0 리더보드에 따르면, OpenAI Codex CLI가 GPT‑5.5와 함께 82.2%를 기록했습니다( MiMo Code 자체 보고치 73%보다 약 9점 높음). OpenAI 자체 발표에서도 동일 벤치마크에서 82.7%를 제시했습니다.

반면 SWE‑Bench Pro에서는 상황이 뒤집힙니다. OpenAI는 GPT‑5.5가 58.6%라고 보고했으며, 이는 MiMo Code + MiMo‑V2.5‑Pro 조합(62%)보다 낮습니다. (MiMo Code는 아직 공식 리더보드에 등재되지 않았으며, 자체 실행 결과와 리더보드 제출 결과를 직접 비교할 때는 설정 차이에 유의해야 합니다.)

내부 베타에서 진행된 인간 이중 맹검 A/B 평가

샤오미는 내부 베타 단계에서 576명의 개발자를 대상으로 인간 이중 맹검 A/B 테스트를 진행했다고 밝혔습니다. 이 테스트는 474개의 실제 사설 레포지토리에서 1,213개의 헤드‑투‑헤드 비교 쌍을 생성했으며, 동일 모델을 사용한 Claude Code와 직접 대결했습니다.

200단계 이하에서는 두 시스템이 거의 50:50으로 비슷한 성과를 보였지만, 200단계를 초과하면 MiMo Code의 승률이 65% 이상으로 상승했습니다. 이는 메모리·상태 관리 아키텍처가 장기 작업에서 효과를 발휘한다는 샤오미의 가설을 뒷받침합니다.

샤오미는 기존 벤치마크가 “한 번에 문제를 해결하는 능력”만을 측정하고, 다세션 설계 목표를 포착하지 못한다는 점을 인정했습니다.

물론 이 수치는 모두 공급자가 자체 보고한 것이며 독립 검증되지 않았고, 하네스 간 직접 비교는 설정에 따라 크게 달라질 수 있습니다. 그러나 “스캐폴딩·하네스 엔지니어링이 모델 자체의 성능만큼이나 중요해지고 있다”는 업계 전반의 흐름과 일치합니다.

기존 개발자 시스템과의 손쉬운 통합 및 음성 제어

사용자 경험 측면에서 MiMi Code는 개발자가 이미 작업하고 있는 환경에 그대로 녹아들도록 설계되었습니다. 터미널 안에서 파일을 읽고 쓰며, 명령을 실행하고 Git을 관리합니다.

즉시 사용 가능한 상태이며, 별도 설정 없이 “MiMo Auto”(샤오미 멀티모달 MiMo V2.5 모델 기반, 백만 토큰 컨텍스트 윈도우 제공) 채널에 자동 연결됩니다. 기존 환경에서 전환할 경우에도 마찰이 없습니다. MiMo Code는 Claude Code에서 사용하던 MCP 서버, 커스텀 스킬, API 설정을 자동으로 가져옵니다.

눈에 띄는 추가 기능

Compose 모드: Tab 키를 눌러 에이전트를 사양 기반 워크플로로 전환합니다. 개발자는 고수준 목표만 제시하면 시스템이 설계·계획·코딩·테스트·리뷰까지 전 과정을 자율적으로 수행합니다. 샤오미는 이를 “초기에 무거운 계획을 세우고, 이후에 안정적인 검증을 진행한다”는 전략이라고 설명합니다.
음성 제어: 샤오미 MiMo‑ASR 음성 인식과 TenVAD 음성 활동 감지를 기반으로, 개발자는 음성으로 명령을 내리고 수정할 수 있습니다. “send”, “execute” 같은 명령어를 말하면 완전한 핸즈프리 작업이 가능합니다(로그인 사용자에 한해 제공).

샤오미에 따르면, 에이전트 하네스 자체가 가져오는 이점도 측정 가능

샤오미 신형 오픈소스 에이전트 AI 코딩 툴 MiMo Code, 200단계 초장기 과제에서 Claude Code 능가

AI 코딩 에이전트의 기억 상실(Amnesia) 종말?

소프트웨어 엔지니어링(SWE) 벤치마크에서 인상적인 성능

내부 베타에서 진행된 인간 이중 맹검 A/B 평가

기존 개발자 시스템과의 손쉬운 통합 및 음성 제어

눈에 띄는 추가 기능

관련 글

마이크로소프트의 오픈소스 SkillOpt, 모델 가중치 변경 없이 AI 에이전트 스킬 자동 업그레이드

컨텍스트 압축, 실제 적용 성공: 새로운 연구, LLM 입력을 정확도 손실 없이 16배 감소

AI 벤치마크가 실제 성능에서 놓치는 것

구글 DiffusionGemma, 256 토큰을 병렬로 생성하며 진행 중 자체 교정.