우리가 기본 평가 모델을 바꾸는 이유
Source: Dev.to
우리는 평가 하니스에서 기본 솔버 모델을 Claude Sonnet 4.6에서 GLM 5.1으로 교체하고 있습니다. 이는 플랫폼에서 평가를 실행하는 모든 사람에게 제공되는 기본값입니다. 하니스가 수행하는 대부분의 작업에서는 최첨단 모델이 가장 강력한 신호를 제공합니다. 하지만 그 신호는 작업에 필요한 것보다 과도하게 많으며, 차이가 바로 평가 예산이 은밀히 새는 지점입니다. 얼마나 비용을 지불해야 하는지를 결정하는 핵심 질문은 “해당 평가가 모델을 측정하고 있는가, 아니면 스킬을 측정하고 있는가”입니다.
그 원칙은 간단합니다: 모델에 관심이 있을 때만 모델을 지정한다는 것. 평가가 “이 특정 모델이 잘 배포될 수 있는가?”를 답하려면 정확히 그 모델을 실행해야 합니다. 반면 “이 스킬이 에이전트 행동을 개선하고, 회귀가 없는가?”를 답하려면 특정 모델이 아니라 대표적인 모델이면 충분합니다.
우리는 자체 스킬 평가 하니스에서 이를 테스트했고, 기본값으로 교체될 Sonnet 4.6에 대해 GLM 5.1을 검증했습니다. 스킬 저자들이 의존하는 신호를 거의 잃지 않았으며, 평가 비용도 감소했습니다. 이 글은 전환 배경과 여러분이 자체 평가 스택에 적용할 수 있는 프레임워크를 설명합니다.
우리 하니스는 방대한 스킬 평가 스위트를 실행합니다: 약 500개의 스킬을 850여 개의 태스크에 대해 각각 두 번씩, 스킬이 적용된 경우와 적용되지 않은 경우를 비교합니다. 우리는 세 가지를 점수화합니다: 명령 수행(에이전트가 스킬이 지시한 대로 행동했는가), 태스크 완료(목표에 도달했는가), 그리고 명령 수행에 가중치를 둔 전체 종합 점수.
Lift는 스킬이 적용된 에이전트 행동과 적용되지 않은 행동 사이의 차이이며, 스킬 저자가 보는 주요 지표입니다. 이는 모델의 기본 성능에서 스킬이 미치는 영향을 분리해 줍니다.
각 실행마다 두 모델이 사용됩니다. **판정자(judge)**는 트래젝터리를 채점하는 역할이며, 우리는 판정자를 고정하고 강력하게 유지합니다. 왜냐하면 판정자의 루브릭 채점이 lift를 결정하기 때문입니다. **솔버(solver)**는 실제로 태스크를 수행하는 에이전트이며, 자유 변수입니다. 솔버의 트래젝터리가 판정 라운드보다 길기 때문에 평가 비용을 주도합니다. 따라서 실질적인 질문은 “더 저렴한 솔버로 교체해도 lift 신호를 잃지 않을까?”입니다.
이를 답하려면 하니스가 어떤 질문에 답하고 있는지 알아야 합니다.
-
“이 특정 모델이 잘 배포될 수 있는가?”
- 모델을 프로덕션에 넣을지를 결정한다면 프록시가 될 수 없습니다. 모델 자체가 평가 대상이기 때문입니다.
-
“이 스킬이 에이전트 행동을 바꾸고, 회귀가 없는가?”
- 여기서는 모델이 주제가 아니라 스킬을 읽어내는 도구일 뿐이며, 도구는 여러분이 행동에 옮기는 신호를 충분히 재현할 정도만 정확하면 됩니다.
대부분의 일상적인 스킬 개발은 두 번째 질문에 해당합니다. 스킬을 반복적으로 개선하면서 lift가 상승하는지, 회귀가 없는지를 확인합니다. 이때 사용되는 솔버는 크게 중요하지 않으며, 최첨단 모델과 충분히 근접하게 추적할 수만 하면 됩니다. 따라서 이 작업에 적합한 기본값은 lift를 충실히 재현하는 가장 저렴한 모델입니다.
당연히 제기되는 반론은 “저렴한 모델은 성능이 떨어지기 때문에 신호가 약해지지 않을까?”입니다. 이는 어떤 신호를 말하느냐에 따라 다릅니다. 절대적인 수준은 떨어지지만, lift는 대부분 유지됩니다.
우리는 GLM 5.1과 Sonnet 4.6을 동일한 850개의 태스크, 500개의 스킬에 대해 head‑to‑head로 실행했습니다. 동일한 태스크, 동일한 판정자, 동일한 with‑and‑without 프로토콜을 사용한 뒤, 스킬별 lift를 상관 분석했습니다.
스킬 수준에서 500개 스킬 전체의 lift 상관계수는 **r = 0.72 (Spearman 0.69)**였습니다. Sonnet에서 lift가 발생한 스킬은 대부분 비슷한 정도로 GLM에서도 lift가 발생했으며, 세부적으로 분해해도 상관관계가 유지됩니다. 이는 단일 헤드라인 수치가 포화 현상을 숨길 수 있기 때문에 중요합니다. 명령 수행 lift(신호가 거의 전부 존재하는 영역, 표준편차 26)는 r = 0.71, 태스크 완료 lift(작고 포화에 가깝지만 드문 해제 효과를 포함)는 r = 0.74로 각각 양쪽 차원에서 일치했습니다.
스크리닝 도구로서 중요한 지표는 결정 일치율입니다. 저자들이 실제로 내리는 이진 판단 “이 스킬이 도움이 되는가?”에 대해 두 모델은 **88.5%**의 일치율을 보였으며, 차이가 나는 경우에도 안전한 방향으로 차이가 났습니다. GLM은 약간 보수적이며 평균 lift가 22.3( Sonnet 24.3)이고 회귀 기울기가 약 0.76이었습니다. 즉, 스킬을 과대평가하지 않아 회귀 방지에 유리합니다.
스킬 저자에게 핵심은 간단합니다: 여러분이 행동에 옮기는 “스킬 lift의 부호와 대략적인 크기”는 두 모델에서 동일하게 나타나므로, 기본값으로 저렴한 모델을 사용하면 됩니다.
두 모델이 차이를 보이는 부분은 미세하고 영향력이 낮은 플래깅입니다. GLM은 Sonnet이 낮은 영향력( lift 5점 이하)이라고 판단한 스킬의 절반 정도만 포착하고, 드물게 완전히 부정적인 스킬에서는 겹침이 더 적습니다. 하지만 스킬당 약 2개의 태스크와 LLM 판정자가 갖는 불가피한 노이즈 때문에, 가장 미묘한 경우에 두 모델이 의견을 달리합니다. 즉, 증거가 가장 얇은 경우에 불일치가 집중되고, 확신이 있는 판단에서는 차이가 거의 없습니다.
따라서 GLM은 스킬을 개발하고 회귀를 방지하는 동안 항상 실행하는 저렴하고 빠른 스크리너가 됩니다. 단일 경계 스킬이나 배포 모델을 결정해야 할 때만 관심 모델(최첨단 모델)로 전환합니다. 스크리너가 후보군을 좁히고, 최첨단 모델이 최종 결정을 내리는 구조입니다. 이는 정확도를 비용과 교환하는 것이 아니라, 결정이 필요한 곳에만 정확도를 투자하고, 나머지는 처리량을 높이는 접근입니다.
현재 우리 API 가격 정책에 따르면, 일반적인 태스크는 GLM이 약 1.5배 저렴합니다. 전체 태스크의 **83%**가 GLM이 더 저렴하고, **52%**는 최소 1.5배 저렴합니다. 토큰당 API 리스트 가격을 기준으로 하면 차이는 2~3배까지 벌어집니다. 한 줄 요약: 대부분의 태스크에서 저렴하며, 토큰당 비용은 2~3배 차이.
전체 평가 비용은 1.4배 저렴해졌으며, 이는 약 28% 감소한 수치입니다. 이는 태스크당 비용 감소치(1.5배)보다 작게 나타나는 이유가 비용 꼬리 때문입니다. 전체 태스크 중 약 **17%**가 폭주하는 채팅 트래젝터리(루프가 길거나 토큰을 과다 사용)로, 단일 태스크만 2.1 M 캐시 토큰을 소모합니다. 이 꼬리 현상이 전체 비용을 끌어올립니다.
우리는 이 꼬리를 최적화할 수 있습니다. 일반적인 태스크가 1.5배 저렴하고 전체 평균이 1.4배인 차이는 바로 이 폭주 트래젝터리 때문이며, 턴 및 루프 제한을 강화하고 하니스가 긴 트래젝터리를 다루는 방식을 조정하면 꼬리를 중간값 쪽으로 압축할 수 있습니다. 이렇게 하면 전체 비용이 이미 1.5~2배 수준인 일반 태스크와 거의 일치하게 됩니다. 현재 대부분의 태스크에서 비용이 낮으며, 비용 곡선을 계속 낮출 여지가 있습니다.
이 원칙은 우리 하니스에만 국한되지 않습니다:
- 스킬 개발 및 회귀 평가는 저렴하고 최신 모델과 상관관계가 높은 솔버를 기본값으로 사용합니다. 실행량이 여기서 대부분 발생합니다.
- 배포 결정이나 경계가 있는 단일 스킬 판단은 최첨단 모델에 고정합니다. 이때 정확도가 실제 결정에 영향을 미칩니다.
GLM 5.1은 이제 기본 솔버이며, 평가 실행기에서 설정할 수 있습니다. 다음 평가를 실행하기 전에 **그