[논문] SpatialWorld: 실제 과제에서 멀티모달 에이전트의 인터랙티브 공간 추론 벤치마크

발행: 3일 전 (2026년 6월 9일 AM 12:51 GMT+9)

4 분 소요

원문: arXiv

출처: arXiv - 2606.09669v1

개요

공간 추론은 다중모달 대형 언어 모델(MLLM)이 물리적 세계를 인식하고 작동하기 위한 기본 역량이다. 그러나 기존 벤치마크는 주로 수동 평가(예: 정적 VQA)나 시뮬레이터 전용 파이프라인에 의존해 일반적인 인터랙티브 공간 이해를 평가하지 못한다. 우리는 복잡한 실제 작업에서 다중모달 에이전트의 인터랙티브 공간 이해를 평가하도록 설계된 통합 벤치마크인 SpatialWorld를 소개한다. 공통의 시뮬레이터 비종속 프로토콜 아래 여덟 개의 이질적인 시뮬레이션 백엔드를 통합한 SpatialWorld는 가정 일상, 여행, 사회적 협업 등 다양한 분야에 걸친 760개의 인간 주석 작업을 제공한다. 에이전트는 시각 전용 부분 관측 하에서 작업을 해결해야 하며, 자아 중심 시각 증거를 적극적으로 수집하고 MLLM에 고유한 통합 텍스트 기반 행동 인터페이스를 통해 결정을 표현한다. 신뢰할 수 있는 평가를 위해 각 작업에는 인간이 검증한 초기 상태, 기준 궤적, 그리고 최종 상태 검증기가 포함된다. 15개의 고급 에이전트를 평가한 결과, 견고한 공간 작업 해결이 여전히 어려운 것으로 나타났다: 가장 강력한 모델인 GPT‑5는 평균 작업 성공률(TSR) 17.4%에 불과하고, 최고 오픈소스 모델인 Qwen‑3.5는 14.1%에 머문다. 추가 분석을 통해 작업 성공과 실행 효율성 사이에 명확한 불일치가 존재하고, 도메인별 성능 차이가 크게 나타남을 확인했다. 능동적 탐색 및 장기 계획의 이러한 병목 현상은 SpatialWorld를 향후 공간 에이전트를 위한 엄격한 테스트베드로 만든다.

주요 기여

이 논문은 다음 분야의 연구를 제시한다:

cs.AI
cs.CL

방법론

자세한 방법론은 전체 논문을 참고하시기 바랍니다.

실용적 함의

이 연구는 cs.AI 분야의 발전에 기여한다.

저자

Hongcheng Gao
Hailong Qu
Jingyi Tang
Jiahao Wang
Zihao Huang
Hengkang Qiao
Shihong Huang
Junming Yang
Yi Li
Hongyixuan Yuan
Wenjie Li
Bohan Zeng
Wenbo Li
Bo Wang
Jianhui Liu
Olive Huang
Haoyang Huang
Wentao Zhang
Guoqing Huang
Nan Duan
Yinpeng Dong

논문 정보

arXiv ID: 2606.09669v1
Categories: cs.AI, cs.CL
Published: 2026년 6월 8일
PDF: PDF 다운로드

[논문] SpatialWorld: 실제 과제에서 멀티모달 에이전트의 인터랙티브 공간 추론 벤치마크

개요

주요 기여

방법론

실용적 함의

저자

논문 정보

관련 글

[논문] VIA‑SD: 추측 디코딩을 위한 모델 내부 라우팅 기반 검증

[논문] AuRA: 오디오 이해를 LoRA 방식으로 LLM에 내재화

[논문] 순차 추천을 위한 생성적 전형 기반 아이템 표현

[논문] 격차에 주목: 최첨단 LLM이 표준 사무 능력 시험을 통과할 수 있을까?