오픈 모델로 최첨단 모델을 능가하는 코딩 하네스를 만들었으며, 현재 오픈 베타 중이다.

발행: (2026년 6월 7일 AM 06:42 GMT+9)
11 분 소요
원문: Dev.to

출처: Dev.to

우리가 걸었던 내기: 모델보다 메모리를 먼저 구축하면 성능이 앞선다.

다른 사람들은 다음 모델을 감싸는 데 급급하다. 우리는 정반대로 했다. 메모리 레이어를 먼저, 라우팅을 먼저, 툴 호출을 먼저, 이제는 재귀 엔진을 먼저 만들고, 모델은 교체 가능한 부품으로 남겨두었다.

오늘 그 내기는 이름을 갖게 되었다: Backboard Development Studio. 이는 R-CLI라는 코딩 하네스로 시작되며 현재 오픈 베타 중이다.

핵심 결과는? 오픈 모델을 사용해 프론티어 모델을 능가한다. 아래 숫자를 확인하고, 하단에 있는 프로모션 코드를 확인하라.

사용해 보기.

베타는 공개되어 있다. 두 줄만 입력하면 바로 실행된다.

# macOS / Linux
curl -fsSL https://app.backboard.io/api/cli | bash

# Windows (PowerShell)
irm https://app.backboard.io/api/cli/windows | iex
전체 화면 모드 진입


전체 화면 모드 종료

API 키 받기: https://app.backboard.io

프로모션 코드: DEVTOCLI – 추론 비용을 절감할 수 있는 크레딧. 청구 페이지 오른쪽 상단에 있는 프로모션 입력란을 찾아 입력하라.

가설, 한 마디로 정리하면

모델 우선 사고방식은 “가장 똑똑한 모델을 고르고, 프롬프트를 잘 짜고, 기억해 주길 바란다”는 것이다.

메모리 우선 사고방식은 “시스템에 실제 영속성, 라우팅, 회상을 부여하면, ‘작은’ 모델이라도 턴 사이에 모든 것을 잊어버리는 ‘똑똑한’ 모델보다 더 잘 작동한다”는 것이다.

우리는 두 번째를 믿었다. 그래서 R-CLI를 만들었다. R-CLI는 우리의 메모리 알고리즘(LoCoMo와 LongMemEval에서 1위를 차지한 알고리즘)으로 구동되며, Backboard의 통합 API 위에서 동작한다: 메모리, 17,000개 이상의 모델에 대한 라우팅, RAG, 그리고 하나의 키로 관리되는 상태ful 스레드.

그 뒤에 공개 테스트를 진행했는데, 결과는 조용하지 않았다.

이번 주 내부 테스트에서 얻은 수치

  • 92% – Terminal Bench 2.1에서 Codex 5.5 실행
  • 70% – Terminal Bench 2.1에서 GLM 5.1(오픈소스 모델) 실행
    • 폐쇄형 하네스 대비 토큰 30% 감소, 비용 90% 절감
  • 0% – 여러분의 코드가 누군가의 모델을 학습시키는 데 사용됨 ← 좋아하는 하네스의 이용 약관을 꼭 확인하세요…

두 번째 줄을 다시 읽어보라. 오픈 모델이 우리 하네스 안에서 Claude Code와 어깨를 나란히 하면서도 비용은 그 일부분에 불과하다.

그리고 명확히 말하자면, 우리는 저렴한 오픈소스 대안이 아니다. 프론티어 라인업 전체를 그대로 실행한다. 다만 GLM 5.1, DeepSeek V4 같은 오픈 모델로도 프론티어 결과를 앞선다. 같은 하네스, 여러분이 선택하는 두뇌.

이제 이상해진다: /expert 모드

하나의 모델만 고정할 필요가 없다. 하나의 작업에 두 모델을 동시에 사용할 수 있다.

/expert 모드를 시도해 보라: Opus 4.7으로 계획하고 DeepSeek V4로 실행한다.

비싼 모델은 설계하고, 빠르고 저렴한 모델은 실제 실행을 담당한다. 하네스가 인계 과정을 조율한다. 중요한 순간엔 프론티어 수준의 추론을, 비용이 크게 문제되지 않을 때는 프론티어를 능가하는 비용 효율성을 제공한다. 한 줄 명령으로 가능하다.

다른 곳에서는 이런 기능을 팔지 않는다. 왜냐면 메모리와 라우팅을 먼저 구축한 곳이 없기 때문이다.

개발자가 공개적으로 해부해 보았다

우리는 출시했다. 한 진지한 빌더가 댓글에 나타나 강하게 반박했다.

잘 갖춰진 로컬 레포. 그의 자체 RAG, 스킬, 메모리, 수개월을 투자한 지식 그래프. 그는 CLI를 실행하고 “내 환경에선 다소 구체적이고, 크게 도움이 되지는 않는다”는 공정한 평가를 내렸다.

진지한 빌더. 진지한 이의제기. 개발자가 할 수 있는 가장 강력한 반박: “내가 이미 당신이 파는 걸 손수 만들었다.”

그때 한 가지 사실이 대화를 완전히 뒤바꾸었다.

논쟁을 종결시킨 사실

R-CLI는 기본적으로 상태ful이다.

그가 손수 구축하고 있던 영속성? 매번 쓰고 다시 읽는 세션 프라이밍 파일? 에이전트가 얼마나 흔들리는지 주간 크론 잡으로 감사하던 것? 레일을 잡아두는 프리커밋 훅?

우리 쪽에서는 이것이 기본이다. 별도로 덧붙이는 레이어가 아니다. 기본 동작이 바로 메모리‑우선이 터미널에서 의미하는 바다.

그래서 그에게는 “새로운 생태계를 도입한다”는 것이 아니라 “하네스만 교체한다”는 의미였다: 기존 RAG, 메모리, 그래프는 유지하고, 유지보수 비용만 없앤다.

스레드는 “내게는 안 맞는다”에서 “CLI 담당자와 얘기하고 싶다”로 바뀌었다. 데모 콜이 잡혔고, 이의제기는 사라졌다. 그는 몰랐던 기능이 문제를 해결한 것이다.

우리가 얻은 교훈: 피치는 “우리가 더 낫다”가 아니라 “당신이 손수 만든 것을 우리는 기본으로 제공한다”는 것이었다. 개발자가 그 한 줄을 공짜로 건네주었다.

네 가지 기둥. 하나라도 빠지면 출시되지 않는다.

세계 최고 – 성능은 슬로건이 아니라 기준이다. 우리는 내부 벤치마크를 직접 실행한다. 측정될 것을 기대하기 때문이다.

가장 쉬운 사용성 – 하나의 키. R-CLI용 같은 키가 메모리, 라우팅, 멀티‑에이전트, 병렬 툴 호출을 모두 하나의 통합 인터페이스 뒤에 숨긴다. 여덟 개 서비스를 이어붙이고 접착제가 버티길 바라는 식이 아니다.

가장 접근성 높음 – 프론티어 수준의 코딩 품질을, 원하는 모델으로 구현한다. 폐쇄형이든, 오픈형이든, 혹은 혼합 워크플로든 상관없다. GLM 5.1과 DeepSeek V4가 약속이 아니라 증거다.

사용자가 스스로 머무른다 – 어떤 모델이든, 자체 임베딩, 모듈형 레이어, 데이터를 실제 엔드포인트를 통해 내보낼 수 있다. 락인, 연극, 공포 마케팅이 없다. 머무르는 이유는 유연함이 타의 추종을 불허하기 때문이다.

한 가지 더

R-CLI는 Backboard Development Studio의 첫 번째 인터페이스다. IDE는 곧 출시될 예정이다.

동일 엔진, 동일 성능에 멀티‑에이전트 세션, Pi 확장 통합, 코딩‑테마 스킬이 미리 구축돼 있다. CLI가 커뮤니티와 함께 하네스를 완성하면, IDE는 이미 검증된 기반 위에 올라간다.

우리와 논쟁해 보라

지금까지 받은 최고의 피드백은 “우리는 틀렸다”고 말해준 사람에게서 나왔다. 그는 도전했고, 우리는 답변했으며, 통화를 잡고 그의 팀은 전환했다.

그러니 명령을 복사하고, 키를 입력하고, DEVTOCLI 를 실행해 보라. 그리고 부수어 보라. 그런 다음 어떤 부분이 막혔는지, 어떤 부분은 괜찮았는지, 현재 설정이 아직 더 나은 점은 무엇인지 댓글로 남겨라.

메모리‑우선이든 모델‑우선이든. 우리는 내기를 걸었다. 직접 시험해 보라.

Backboard.io는 풀스택, 모델에 구애받지 않는 AI 인프라스트럭처다. Backboard Development Studio는 기본적으로 상태ful한 재귀 코딩 환경이며, 통합 API 위에 구축되었다.

0 조회
Back to Blog

관련 글

더 보기 »

모바일 한여름 열풍

!Cover image for Mobile Midsommer Madnesshttps://media2.dev.to/dynamic/image/width=1000,height=420,fit=cover,gravity=auto,format=auto/https%3A%2F%2Fdev-to-uploa...