[논문] 진정한 연구자처럼: 연구 전 과정에서 최첨단 LLM·에이전트 활용을 평가하는 벤치마크 모음
개요
기초 모델이 발전하고 에이전트 스캐폴딩이 점점 정교해짐에 따라, 에이전트는 복잡하고 장기적인 코딩 작업 및 자율 실험 수행에서 놀라운 능력을 보여주었습니다. 연구 보조자에서 자율 연구 에이전트로 진화했음에도 불구하고, 이 시스템들은 분야 민감도, 연구 윤리, 미묘한 과학적 판단에서 여전히 큰 한계를 가지고 있습니다. 따라서 최첨단 에이전트는 인간 연구자를 완전히 대체할 수 없습니다. 이러한 격차를 메우기 위해 우리는 AARR(Act As a Real Researcher) 벤치마크 시리즈를 구상합니다. 기존 벤치마크가 주로 거시적 실행 능력을 평가하는 데 비해, AARR은 에이전트가 세밀한 연구 상황에서 인간 연구자의 전문성, 철저함, 미묘한 추론을 모방할 수 있는지를 중점적으로 살핍니다. 본 연구에서는 이 시리즈의 첫 번째 벤치마크인 AARRI‑Bench(Act As a Real Research Intern)를 제안합니다. 최첨단 모델과 에이전트 시스템을 대상으로 광범위한 실험을 수행한 결과, 최고 성능 구성(Mini‑SWE‑Agent와 Claude Opus 4.7)조차도 성공률이 **68.3 %**에 불과하며, 실제 인간 연구자에게는 명백한 미묘하지만 중요한 세부 사항들을 자주 놓친다는 것을 확인했습니다. 우리의 결과는 연구자와 같은 AI를 개발하려면 복잡한 스캐폴딩만으로는 부족하고, 연구 행동에 대한 더 깊은 탐구가 필요함을 시사합니다. 데이터는 https://github.com/AARR-bench/AARRI-bench 에서 공개합니다.
주요 기여
이 논문은 다음 분야의 연구를 제시합니다:
- cs.AI
방법론
자세한 방법론은 전체 논문을 참고하십시오.
실용적 함의
이 연구는 cs.AI 분야의 발전에 기여합니다.
저자
- Jiayu Wang
- Weijiang Lv
- Bowen Fu
- Jing Fu
- Jiayi Song
- Lingyu Zhang
- Lanxuan Xue
- Luodi Chen
- Zepeng Xin
- Kaiyu Li
- Xiangyong Cao
논문 정보
- arXiv ID: 2606.07462v1
- Categories: cs.AI
- Published: 2026년 6월 5일
- PDF: PDF 다운로드