에이전시 충분한가? 자체 툴킷으로 오픈 모델 벤치마크

발행: 1일 전 (2026년 6월 18일 AM 09:00 GMT+9)

9 분 소요

[에이전시용 소프트웨어 테스트](#testing-software-for- agentic- use)
모든 성공은 동등하지 않다
평가를 어떻게 실행하나요?
어떤 모델을 기준으로 평가할까?
대형 오픈 모델: 모델은 그대로 두고 리비전을 바꿔라
소규모 모델: 리비전은 그대로 두고 모델을 바꿔라
도구 조정: 마커와 결과
마커란 무엇인가?
CLI와 Skill 커밋이 도움이 되는가?
직접 실행해 보세요
마무리
감사말

Benchmarking transformers revisions across different metrics
트랜스포머 리비전 다중 메트릭 평가

이 글은 인간이 만든 에이전시 중심 블로그입니다.
코딩 에이전트는 이제 우리 대신 우리의 소프트웨어와 작업합니다: 작업을 설명하고, 에이전트가 필요한 라이브러리를 선택하고, 호출을 작성하고 실행하며, 자체 오류를 디버깅합니다. 라이브러리가 방해가 될 경우,它会 기꺼이 우회하고 로직을 다시 쓰게 됩니다.
이것은 라이브러리 개발에 새로운 개념을 도입합니다: 코드는 단순히 정확하고 빠를 뿐만 아니라, 에이전트가 효과적으로 구동할 수 있도록 설계되어야 합니다. 불편한 API나 오래된 문서는 개발자들을 짜증나게 하지만, 이제는 에이전트를 더 길고 비용이 많이 드는 경로로 안내합니다.
대부분의 벤치마크는 최종 답변만 확인합니다. 우리는 전체 과정을 평가하고자 했습니다: 단순히 에이전트가 맞았는지 여부가 아니라, 이를 달성하기 위해 얼마나 많은 노력이 들었는지, 그리고 이 과정이 모델, 라이브러리 리비전, 작업에 따라 어떻게 변하는지 파악하고 싶었습니다.
우리는 정확히 그 점을 transformers를 사례 연구로 삼아 측정했습니다.

에이전시용 소프트웨어 테스트

이 블로그에서는 transformers를 예시로 사용합니다: 에이전트가 텍스트 분류, 이미지 캡션 작성, 오디오 전사라는 ML 작업을 수행하도록 하는 것이 아니라, 코드를 기여하는 것이 아닙니다. 하지만 하니스는 명령줄에서 실행 가능한 모든 도구와 호환되도록 설계되었습니다.

우리의 transformers 사용 직관은 몇 가지 변경 사항만으로도 사용이 크게 단순화될 수 있다고 생각했습니다: CLI, Skill, 그리고 자체 작업 전용 예시들. 이는 최근 hf CLI, 에이전트 최적화 redesign에서 적용된 동일한 레시피로, 에이전트가 1.3–1.8× (최대 6×) 적은 토큰을 사용했습니다.

우리는 이러한 성과가 일반화되는지, 그리고 변형자(트랜스포머)에서도 유용할 수 있는지 알고 싶었습니다.
직관은 강력한 도구이지만, 우리는 transformers와 같은 널리 사용되는 코드베이스에 수천 줄의 코드를 추가하는 PR을 열기 전에 더 많은 증거를 원했습니다. 우리는 성공이 어떤 모습인지 측정하기 위해 나섰습니다.

모든 성공은 동등하지 않다

두 에이전트가 sentimento 분류 작업에 올바른 라벨을 모두 출력할 수 있지만, 하나는 다음과 같이 합니다:
40줄짜리 파이썬 스크립트를 작성하고 transformers를 임포트한 뒤, shape 오류를 디버깅하고 두 번 재실행한 후 finalmente 답변을 출력합니다.
다른 에이전트는

transformers classify --model ... --text "..." 와 같이 한 번의 명령만으로 작업을 완료합니다.

두 방법 모두 POSITIVE (0.9999)에 도달하고, 여기서 실제 에이전트가 이 정확한 작업에서 수행한 두 가지 경로를 보여줍니다.

# Task: classify the sentiment of "I absolutely loved the movie, it was fantastic!"

-  # one agent: pipe a script into python and parse the output
- python  -  <<'PY'
- from transformers import AutoTokenizer, AutoModelForSequenceClassification
- import torch
- import torch.nn.functional as F
-
- model  = AutoModelForSequenceClassification.from_pretrained("distilbert/... (snip) ...

평가를 어떻게 실행하나요?

여기서 에이전트를 평가하는 데 사용되는 간단한 설명입니다.

우리는 각 작업을 세 가지 변형(또는 “tiers”) 하에 실행합니다. 에이전트가 transformers에 접근할 수 있는 세 가지 다른 방법입니다.

bare     pip install transformers, and nothing else   # 기본 설치만
clone    the full transformers source, checked out in the working directory   # 전체 변환자 소스 가져오기
skill    a packaged Skill: the CLI's docs + task examples, loaded in context   # 패키지된 Skill (CLI 문서 + 작업 예시)

추가 선택肢 몇 가지 더 있습니다:

현재는 정확한 매치를 제공할 수 있는 결정적 작업을 집중적으로 다룹니다. 이는 실험에 매우 좋은 기반이 됩니다.
모델-판사 및 유사한 접근 방식은 다른 작업에 대한 자연스러운 다음 단계입니다.
각 실행은 개별 Hugging Face Job으로, (모델 × 리비전 × 작업)당 하나씩이며, 동일한 하드웨어 위에서 병렬로 실행되어 규모에 관계없이 공정한 비교를 유지합니다.
결과와 트레이스는 Hugging Face 버킷에 저장됩니다. 빠르고 버전 관리가 필요 없으며, 높은 동시 쓰기 부하도 처리합니다.

어떤 모델을 기준으로 평가할까?

But, how do you optimize software for agents?

우리는 다음 두 소프트웨어 원칙을 강력히 믿습니다:

테스트되지 않으면 작동하지 않는다
문서화되지 않으면 존재하지 않는다

이 원칙은 에이전시 최적화된 도구 영역 안에서도 동일하게 유지되며, 이번엔 두 원칙이 서로 직접 연결되어 있습니다.

에이전트를 위해 도구가 존재하도록 하려면, 그것은 발견 가능해야 합니다. API는 명확하고 문서는 풍부해야 합니다. 구조적으로 유용한 파일과 예시를 에이전트가 빠르게 접근할 수 있도록 설계되어야 합니다.
에이전트용으로 도구가 제대로 작동하려면, 당신은 이를 에이전시용으로 테스트해야 합니다.

에이전시 충분한가? 자체 툴킷으로 오픈 모델 벤치마크

에이전시용 소프트웨어 테스트

모든 성공은 동등하지 않다

평가를 어떻게 실행하나요?

어떤 모델을 기준으로 평가할까?

관련 글

MosaicLeaks: 연구 에이전트가 비밀을 지킬 수 있나요?

MolmoMotion: 언어 기반 3D 움직임 예측

에이전트 자원 탐색: 에이전트가 검색

ChatGPT의 건강 지능 향상