[Paper] 상상력으로 사고하기: 에이전틱 시각 공간 추론과 World Simulators
Source: arXiv - 2606.06476v1
Overview
Vision‑Language Models (VLMs)은 강력한 시각적 추론 능력을 보여주었지만, 공간 추론 능력은 관찰된 이미지와 텍스트‑중심 체인‑오브‑쓰에 크게 제한됩니다. 제한된 자기중심 관찰만으로는 관찰되지 않은 레이아웃을 추론하고, 교차‑뷰 일관성을 유지하며, 대체 시점에서 추론하는 데 어려움을 겪습니다.
본 연구에서는 이를 상상으로 생각하기 문제로 정의하고, VLM이 추론 과정에서 세계 시뮬레이터와 상호작용하여 상상된 시각적 증거를 적극적으로 획득하도록 합니다. 우리는 VLM에 행동‑조건화 시각적 상상을 부여하는 에이전시 공간 추론 프레임워크 Astra를 제안합니다. 구체적으로 Astra는 다음을 결합합니다:
- Astra‑VL – RL‑학습된 VLM 정책, 그리고
- Astra‑WM – 컨텍스트 이미지와 자연어 카메라 움직임으로부터 새로운 시점 관찰을 생성하는 Bagel‑기반 세계 시뮬레이터.
신뢰할 수 있는 상상 증거를 제공하기 위해 Astra‑WM은 view consistency tuning을 통해 시점 및 내용 일관성을 향상시키도록 학습됩니다. RL 단계에서는 world‑simulator‑in‑the‑loop two‑phase RL curriculum을 도입하여 도구‑사용 탐색을 안정화하고, 직접 답변보다 상상 관찰이 개선될 때만 시뮬레이터를 호출하도록 모델의 능력을 향상시킵니다.
실험 결과는 세계 시뮬레이터와 에이전시 정책 모두가 필요함을 보여줍니다:
- Astra‑WM은 Gemini‑3‑Flash에 시뮬레이터‑보강을 적용했을 때 MMSI‑Bench 점수를 45.1에서 49.5로 향상시킵니다.
- Astra‑VL은 Qwen3‑VL 백본을 MMSI‑Bench에서 29.8에서 38.8, MindCube에서 36.8에서 42.7으로 개선합니다.
이 결과는 상상된 관찰이 유용한 공간 증거를 제공할 수 있음을 보여주지만, 효과적인 세계‑모델‑보강 추론을 위해서는 언제, 어디서, 어떻게 상상할지를 학습해야 함을 시사합니다.
Key Contributions
- 연구 분야: cs.CV
Methodology
자세한 방법론은 전체 논문을 참고하십시오.
Practical Implications
본 연구는 cs.CV 분야의 발전에 기여합니다.
Authors
- Chenming Zhu
- Jingli Lin
- Yilin Long
- Peizhou Cao
- Tai Wang
- Jiangmiao Pang
- Xihui Liu
Paper Information
- arXiv ID: 2606.06476v1
- Categories: cs.CV
- Published: June 4, 2026
- PDF: Download PDF