Kilo, 코딩용 가장 효율적인 AI 모델을 식별하는 벤치마크를 도입

발행: (2026년 6월 9일 AM 03:47 GMT+9)
6 분 소요
원문: DevOps.com

Source: DevOps.com

Kilo는 오늘 오픈 소스 인공지능(AI) 에이전트를 위한 벤치마킹 프레임워크를 공개했으며, 이를 통해 애플리케이션 개발 팀이 여러 모델을 활용해 코드를 생성할 수 있게 되었습니다.

회사 CEO인 Scott Breitenother는 KiloBenchSWE‑bench Verified와 같이 일반적인 작업 집합에 대한 성능만을 평가하는 기존 벤치마크에 의존하는 것이 아니라, 최첨단 AI 모델이 실제 프로덕션 워크플로에 미치는 영향을 측정한다고 설명했습니다.

이에 반해 KiloBench 프레임워크는 워크플로에 대한 보다 깊은 인사이트를 제공하여, 특정 하네스에 가장 적합한 AI 모델이 작업을 얼마나 빠르게 완료하고 어느 정도 비용이 드는지를 판단할 수 있게 합니다.

예를 들어, 일부 AI 모델은 첫 시도만에 작업을 성공적으로 마치는 반면, 다른 모델은 세 번의 시도가 필요합니다. 시도당 비용은 저렴하지만 다섯 번을 시도해야 하는 모델은, 시도당 비용은 더 비싸지만 토큰 소비가 적은 모델보다 비용이 더 많이 듭니다라고 Breitenother는 덧붙였습니다.

또 다른 경우에는, OpenAI나 Anthropic과 같은 상용 AI 모델과 같은 클라우드 서비스에 배포된 오픈 소스 AI 모델을 호출하는 것이 더 저렴할 수도 있습니다. 너무 많은 조직이 AI 모델 제공업체와 지나치게 밀접하게 결합된 하네스를 채택함으로써 전략적 실수를 저지르고 있다고 Breitenother는 지적했습니다.

애플리케이션 개발자는 모든 AI 모델이 동일하게 동작하지 않는다는 점도 인식해야 합니다. 일부 모델은 코드를 작성하기 전에 광범위하게 읽어들여, 더 많은 토큰을 소비하면서도 버그를 더 많이 발견할 수 있습니다.

KiloBench는 Kilo 하네스를 사용해 89개의 실제 작업을 추적하는 Terminal‑Bench 프레임워크를 기반으로 합니다. 이 접근 방식은 어떤 AI 모델이 Kilo AI 코딩 도구에 가장 최적화되어 있는지에 대한 보다 세밀한 인사이트를 제공합니다라고 Breitenother는 말했습니다. 궁극적으로는 DevOps 팀이 정의한 정책 집합에 따라 작업을 자동으로 라우팅하는 것이 목표라고 덧붙였습니다.

각 하네스가 AI 모델과 인터페이스하는 방식은 약간씩 다르기 때문에, 시간이 지나면서 특정 AI 코딩 도구에 연계된 벤치마크에 대한 수요가 더욱 커질 가능성이 있습니다. 이러한 인사이트에 접근하는 것이 점점 더 중요해지고 있는데, 이는 DevOps 팀이 소프트웨어를 구축·배포하는 데 사용되는 토큰 비용이 많은 경우에 금액이 감당하기 어려워졌다는 사실을 발견하고 있기 때문입니다.

이러한 비용을 통제하는 한 가지 방법은 특정 작업을 수행하기에 가장 적합한 AI 모델이 무엇인지에 대한 이해를 높이는 것입니다. 토큰 사용량(일명 토큰 맥싱)에만 집중하기보다, DevOps 팀은 AI 인프라 자원 소비에 대한 최선의 FinOps 관행을 적용해야 할 필요가 커지고 있습니다라고 Breitenother는 강조했습니다. 그렇지 않으면 더 많은 조직이 애플리케이션 개발자가 할당된 토큰을 자주 소진하게 되고, 이를 보충해야 하는 상황에 직면하게 될 것입니다라고 덧붙였습니다.

AI 코딩 도입은 아직 초기 단계에 있습니다. 대부분의 조직이 이제 여러 AI 도구를 사용해 코드를 생성하고 있지만, 사용을 최적화하기 위한 거버넌스 정책이나 프레임워크를 정의한 경우는 드뭅니다. 확실히 말할 수 있는 것은, 이러한 프레임워크와 정책이 적용될 시점은 **‘언제’**가 아니라 **‘언제일까’**라는 질문으로 바뀌고 있다는 점입니다.

                                                                                                                                                                                                                                                                                                                                                                                                                                                                            -                                                                                                                                                                                                                                                         

0 조회
Back to Blog

관련 글

더 보기 »