[논문] 평가 카드: AI 평가 보고를 위한 해석 레이어
개요
AI 평가 결과는 대규모로 생성되지만 리더보드, 모델 카드, 벤치마크 논문, 기업 블로그 등에서 일관되지 않게 보고됩니다. 해석 비용이 크게 발생하는데, 독자는 서로 다른 출처의 결과를 신뢰성 있게 비교하기 어렵고, 보고서가 무엇을 누락했는지 파악하기 어렵으며, 종합적인 주장과 그 근거가 되는 증거를 추적할 수 없습니다. 최근 시도들은 개별 요소만을 다루고 있어 세 가지 문제점을 남깁니다. 첫째, 평가 라이프사이클의 좁은 부분만을 다루어 단일하고 해석 가능한 기록으로 구성되지 못합니다. 둘째, 정적인 표현 방식을 사용해 이해관계자마다 같은 증거에 대해 제기하는 질문을 구분하지 못합니다. 셋째, 실제 적용을 위한 추출 인프라가 부족한 채 논문 수준의 제안에 머물러 있습니다. 우리는 \EvalCards{}를 제안합니다. 이는 벤치마크 메타데이터, 평가 실행 데이터, 모델 메타데이터를 하나의 통합 기록으로 결합하는 운영 보고 레이어입니다. 우리는 (1) 52편의 논문과 10명의 이해관계자 인터뷰를 구조화하여 검토한 결과 보고 스키마를 도출하고, (2) 재현성, 문서 완전성, 출처·위험, 점수 비교 가능성이라는 네 가지 해석 신호를 구현해 연구자와 비연구자 모두에게 맞춘 독자 모드로 제공하며, (3) 5,816개 모델, 635개 벤치마크, 101,843개 결과에 \EvalCards{}를 적용하는 모니터링 도구를 배포하여 현재 보고 관행에 존재하는 체계적인 격차를 드러냅니다.
주요 기여
이 논문은 다음 분야의 연구를 제시합니다.
- cs.AI
방법론
자세한 방법론은 전체 논문을 참고하십시오.
실용적 함의
본 연구는 cs.AI 분야의 발전에 기여합니다.
저자
- Avijit Ghosh
- Anka Reuel
- Jenny Chim
- Wm. Matthew Kennedy
- Srishti Yadav
- Jennifer Mickel
- Yanan Long
- Andrew Tran
- Anastassia Kornilova
- Damian Stachura
- Kevin Klyman
- Felix Friedrich
- Jeba Sania
- Max Lamparth
- Jan Batzner
- Anoop Mishra
- Eliya Habba
- Yixiong Hao
- Nathan Heath
- Shalaleh Rismani
- Usman Gohar
- Andrea Loehr
- David Manheim
- Ruchira Dhar
- Sree Harsha Nelaturu
- Aarush Sinha
- Leshem Choshen
- Drishti Sharma
- Ishan Khire
- Amit Saha
- Subramanyam Sahoo
- Michael Hardy
- Michael Alexander Riegler
- Kabir Manghnani
- Michelle Lin
- Yanan Jiang
- Yilin Huang
- Asaf Yehudai
- Jessica Ji
- Aris Hofmann
- Mubashara Akhtar
- Nuno Moniz
- Yacine Jernite
- Stella Biderman
- Zeerak Talat
- Sanmi Koyejo
- Mykel Kochenderfer
- Irene Solaiman
논문 정보
- arXiv ID: 2606.09809v1
- 분류: cs.AI
- 출판일: 2026년 6월 8일
- PDF: PDF 다운로드