[논문] 모든 것을 어디서든 한 번에 벤치마크
개요
벤치마크는 표준화되고 명확한 성능 지표를 제공함으로써 LLM 및 MLLM을 평가하고 발전시키는 데 필수적입니다. 그러나 벤치마크를 구축하는 과정은 인력이 많이 소요되고 재사용이 어려워 지속 가능성과 확장성에 대한 우려를 낳습니다. 게다가 기존 벤치마크는 출시 직후 성능 포화에 빠르게 도달하는 경우가 많아 최신 모델 간의 구분력이 부족합니다. 이러한 문제를 해결하고자 우리는 벤치마크 구축을 위해 설계된 완전 자율형 에이전트 시스템인 Benchmark Agent를 소개합니다. 우리 프레임워크는 사용자 질의 분석·하위 과제 설계부터 데이터 라벨링·품질 관리에 이르는 전체 벤치마크 구축 파이프라인을 조율합니다. Benchmark Agent를 평가하기 위해 우리는 이를 구현해 텍스트 이해, 멀티모달 이해, 도메인 특화 추론 등 다양한 평가 시나리오를 포괄하는 15개의 대표 벤치마크를 생성했습니다. 인간 평가, LLM‑as‑a‑judge 평가, 일관성 검사 등을 포함한 광범위한 실험을 통해 Benchmark Agent가 최소한의 인간 개입만으로도 고품질 벤치마크 샘플을 생성할 수 있음을 입증했습니다. 더 나아가 지속적인 평가를 통해 현재 모델들이 특정 도메인 특화 추론 과제에서 어려움을 겪는 등 여러 통찰을 얻었습니다. 우리는 빠르게 진화하는 벤치마크가 연구 커뮤니티에 크게 기여할 수 있다고 믿습니다. 프리뷰와 코드는 데모 페이지 및 코드 저장소에서 공개될 예정입니다.
주요 기여
이 논문은 다음 분야의 연구를 제시합니다:
- cs.AI
방법론
자세한 방법론은 전체 논문을 참고하십시오.
실용적 함의
이 연구는 cs.AI 분야의 발전에 기여합니다.
저자
- Shiyun Xiong
- Dongming Wu
- Peiwen Sun
- Yuang Ai
- Bokang Yang
- Wencheng Han
- Xiao-Hui Li
- Xiangyu Yue
논문 정보
- arXiv ID: 2606.06462v1
- 분류: cs.AI
- 발행일: 2026년 6월 4일
- PDF: Download PDF