[논문] SpatialWorld: 실제 과제에서 멀티모달 에이전트의 인터랙티브 공간 추론 벤치마크
개요
공간 추론은 다중모달 대형 언어 모델(MLLM)이 물리적 세계를 인식하고 작동하기 위한 기본 역량이다. 그러나 기존 벤치마크는 주로 수동 평가(예: 정적 VQA)나 시뮬레이터 전용 파이프라인에 의존해 일반적인 인터랙티브 공간 이해를 평가하지 못한다. 우리는 복잡한 실제 작업에서 다중모달 에이전트의 인터랙티브 공간 이해를 평가하도록 설계된 통합 벤치마크인 SpatialWorld를 소개한다. 공통의 시뮬레이터 비종속 프로토콜 아래 여덟 개의 이질적인 시뮬레이션 백엔드를 통합한 SpatialWorld는 가정 일상, 여행, 사회적 협업 등 다양한 분야에 걸친 760개의 인간 주석 작업을 제공한다. 에이전트는 시각 전용 부분 관측 하에서 작업을 해결해야 하며, 자아 중심 시각 증거를 적극적으로 수집하고 MLLM에 고유한 통합 텍스트 기반 행동 인터페이스를 통해 결정을 표현한다. 신뢰할 수 있는 평가를 위해 각 작업에는 인간이 검증한 초기 상태, 기준 궤적, 그리고 최종 상태 검증기가 포함된다. 15개의 고급 에이전트를 평가한 결과, 견고한 공간 작업 해결이 여전히 어려운 것으로 나타났다: 가장 강력한 모델인 GPT‑5는 평균 작업 성공률(TSR) 17.4%에 불과하고, 최고 오픈소스 모델인 Qwen‑3.5는 14.1%에 머문다. 추가 분석을 통해 작업 성공과 실행 효율성 사이에 명확한 불일치가 존재하고, 도메인별 성능 차이가 크게 나타남을 확인했다. 능동적 탐색 및 장기 계획의 이러한 병목 현상은 SpatialWorld를 향후 공간 에이전트를 위한 엄격한 테스트베드로 만든다.
주요 기여
이 논문은 다음 분야의 연구를 제시한다:
- cs.AI
- cs.CL
방법론
자세한 방법론은 전체 논문을 참고하시기 바랍니다.
실용적 함의
이 연구는 cs.AI 분야의 발전에 기여한다.
저자
- Hongcheng Gao
- Hailong Qu
- Jingyi Tang
- Jiahao Wang
- Zihao Huang
- Hengkang Qiao
- Shihong Huang
- Junming Yang
- Yi Li
- Hongyixuan Yuan
- Wenjie Li
- Bohan Zeng
- Wenbo Li
- Bo Wang
- Jianhui Liu
- Olive Huang
- Haoyang Huang
- Wentao Zhang
- Guoqing Huang
- Nan Duan
- Yinpeng Dong
논문 정보
- arXiv ID: 2606.09669v1
- Categories: cs.AI, cs.CL
- Published: 2026년 6월 8일
- PDF: PDF 다운로드