리더보드 “당신은 조작할 수 없습니다,” 순위를 매기는 기업들이 자금 지원

발행: 1개월 전 (2026년 3월 19일 오전 01:30 GMT+9)

3 분 소요

Source: TechCrunch

Overview

인공지능 모델이 빠르게 늘어나고 경쟁도 치열합니다. 수많은 플레이어가 이 분야에 몰려들면서, 어느 모델이 최고가 될지, 그리고 누가 그것을 결정할지 궁금해집니다. 이전에 LM Arena였던 Arena는 최첨단 LLM을 위한 사실상의 공개 리더보드로 부상했으며, 자금 조달, 출시, PR 사이클에 영향을 미치고 있습니다. 불과 7개월 만에 이 스타트업은 UC Berkeley 박사과정 연구 프로젝트에서 $1.7 billion 규모의 기업 가치로 성장했습니다.

Interview with Arena Co‑founders

Equity 진행자 Rebecca Bellan이 Arena 공동 창업자 Anastasios Angelopoulos와 Wei‑Lin Chiang을 만나, 그들의 플랫폼이 어떻게 최첨단 AI 모델을 위한 대표 리더보드가 되었는지, 그리고 OpenAI, Google, Anthropic과 같은 기업들이 프로젝트를 지원하면서도 중립적인 벤치마크를 구축하려는 노력에 대해 이야기를 나눕니다.

How Arena Works

Harder to game than static benchmarks – Arena의 동적 평가 방식은 참가자들이 고정된 테스트 세트에 과도하게 최적화하는 것을 어렵게 만듭니다.
Structural neutrality – 팀은 “구조적 중립성”이 실제로 무엇을 의미하는지, 그리고 이것이 리더보드의 편향을 방지하는 데 어떻게 기여하는지 설명합니다.
Current performance leaders – 현재 Claude가 법률 및 의료 사용 사례에서 전문가 리더보드를 선두하고 있습니다.
Product expansion – Arena는 채팅을 넘어 에이전트, 코딩, 실제 작업을 벤치마킹하는 새로운 엔터프라이즈 제품으로 확장하고 있습니다.

리더보드 “당신은 조작할 수 없습니다,” 순위를 매기는 기업들이 자금 지원

Overview

Interview with Arena Co‑founders

How Arena Works

관련 글

스케일링 가능한 5가지 LLM 아키텍처 패턴 (그리고 확장되지 않는 2가지)

robots.txt는 표지일 뿐, 울타리가 아니다: AI가 여전히 귀하의 웹사이트를 읽는 8가지 기술적 vectors

2023년식 AI 에이전트 프롬프트 작성을 그만두세요: 실제로 동작하는 OpenClaw 에이전트를 위한 프레임워크

우리는 내부 코딩 에이전트를 어떻게 모니터링하여 불일치를 감지하는가