[Paper] Vision language models가 상호작용을 통해 intuitive physics를 학습할 수 있을까?

발행: 3일 전 (2026년 2월 6일 오전 03:59 GMT+9)

9 분 소요

원문: arXiv

Source: arXiv - 2602.06033v1

Overview

최근 연구는 대형 시각‑언어 모델(VLM)이 인간이 일상적인 상호작용을 통해 개발하는 중력, 충돌, 물체 영속성에 대한 상식적 이해인 “직관적 물리학”을 습득할 수 있는지를 조사한다. 저자들은 이러한 모델이 시뮬레이션 환경과 적극적으로 상호작용하며(강화 학습을 통해) 학습하도록 함으로써 표준 감독식 파인‑튜닝보다 더 견고하고 전이 가능한 물리적 추론을 만들 수 있는지를 탐구한다.

Key Contributions

Interaction‑based training pipeline: 사전 학습된 VLM이 물리적으로 풍부한 시뮬레이션 세계에서 행동하고, 관찰하며, 피드백을 받을 수 있게 하는 강화학습(RL) 프레임워크를 소개한다.
Systematic generalization tests: 시각적 특징은 공유하지만 역학이 다른 일련의 관련 물리 과제(예: 쌓기, 굴리기, 잡기)를 설계하여 작업 간 전이성을 탐색한다.
Empirical finding on robustness: 상호작용이 모델이 훈련된 특정 과제의 성능을 향상시키지만, 새로운(하지만 관련된) 시나리오에 물리적 직관을 일반화하는 모델을 만들지는 않음을 보여준다.
Baseline comparison: 상호작용으로 훈련된 VLM과 감독 학습으로 미세 조정된 VLM을 벤치마크하여, 어느 접근법도 분포 외 물리적 추론에서 강력한 성능을 달성하지 못함을 확인한다.

방법론

기본 모델: 저자들은 이미 이미지‑텍스트 쌍을 이해하는 최첨단 비전‑언어 모델(예: CLIP 기반 인코더‑디코더)에서 시작한다.
환경: Unity나 MuJoCo와 유사한 경량 물리 시뮬레이터가 에이전트가 객체 궤적을 예측하거나 조작해야 하는 일련의 작업을 제공한다(예: “공이 플랫폼에서 떨어질까?”).
강화학습을 통한 학습:
- VLM은 장면 이미지와 텍스트 프롬프트를 받는다.
- 행동을 출력한다(예: “왼쪽으로 밀기”, “대기”).
- 시뮬레이터는 물리 예측이 정확했는지 혹은 조작이 성공했는지에 따라 보상을 반환한다.
- 정책 그라디언트(PPO)를 사용해 VLM의 파라미터를 업데이트함으로써 시도‑오류를 통해 물리 내부 표현을 정제한다.
평가 프로토콜: 단일 작업에 대해 훈련한 뒤, 동일한 시각적 통계량을 공유하지만 다른 물리적 추론을 요구하는 세 개의 보류된 작업에 동일 모델을 테스트한다. 성능은 원시 정확도와 미래 상태를 예측하는 능력 두 가지로 측정한다.

결과 및 발견

작업 내 향상: 인터랙션으로 훈련된 VLM은 훈련된 작업에서 정확도가 약 55 %에서 약 78 %로 향상되며, 감독된 파인‑튜닝(≈70 %)보다 우수합니다.
작업 간 성능 저하: 새로운 작업에서 평가할 때 정확도가 약 52 %로 떨어지며, 이는 적응되지 않은 사전‑훈련된 베이스라인과 거의 동일합니다.
인터랙션에서 명확한 이점 없음: 훈련 및 테스트 작업이 동일한 물리(예: 중력)와 시각적 레이아웃을 공유하더라도 학습된 정책은 전이되지 않습니다.
표현 분석: 은닉층을 탐색한 결과, 인터랙션이 일부 시각적 특징을 재구성하지만 통합된 추상 물리 모듈을 생성하지 않는 것으로 나타났습니다.

실용적 시사점

개발자를 위한 주의사항: 시뮬레이션 물리 환경에서 RL을 사용해 VLM을 단순히 파인튜닝하는 것만으로는 보이지 않는 물리적 상황(예: 로봇 계획, AR/VR 객체 상호작용)에 대해 신뢰할 수 있게 추론할 수 있는 모델을 얻기 어렵습니다.
전용 물리 모듈의 필요성: 구현형 AI(로봇, 자율 드론)를 개발하는 기업은 VLM에만 의존하기보다 명시적인 물리 엔진이나 특화된 시뮬레이션‑학습 모델을 통합해야 할 수도 있습니다.
데이터셋 설계 인사이트: 전이 가능한 직관을 얻기 위해서는 훈련 데이터가 단일 작업에 국한되지 않고 다양한 물리적 맥락을 모델에 노출시켜야 하며, 이는 멀티‑태스크 커리큘럼이나 메타‑러닝 접근법을 시사합니다.
하이브리드 시스템의 가능성: 이 연구는 VLM이 인식 및 언어 기반 정착에 뛰어나지만, 별도의, 아마도 심볼릭 또는 그래프 기반 물리 솔버가 동역학을 처리할 수 있음을 암시합니다. 이는 모듈형 AI 파이프라인을 위한 새로운 길을 열어줍니다.

제한 사항 및 향후 연구

작업 다양성 제한: 실험은 비교적 단순한 물리 작업 몇 개에만 초점을 맞추었으며, 보다 복잡하고 다중 객체 상호작용은 다른 패턴을 드러낼 수 있습니다.
시뮬레이션 전용 설정: 실제 세계의 잡음(마찰 변동, 센서 오류)이 없기 때문에, 결과가 물리 로봇에 직접 적용되지 않을 수 있습니다.
모델 크기 및 아키텍처: 하나의 VLM 클래스만 조사했으며, 더 큰 모델이나 멀티모달 트랜스포머(예: Flamingo, GPT‑4‑V)는 다르게 동작할 수 있습니다.
제안된 향후 방향:
- 물리 도메인 전반에 걸친 추상화를 명시적으로 장려하는 멀티‑태스크 또는 메타‑RL 커리큘럼.
- VLM의 잠재 공간에 구조화된 물리 사전지식(예: 그래프 신경망)을 통합.
- 시뮬레이션 상호작용이 현실 격차를 메울 수 있는지 검증하기 위해 실제 로봇 플랫폼으로의 전이 평가.

저자

Luca M. Schulze Buschoff
Konstantinos Voudouris
Can Demircan
Eric Schulz

논문 정보

arXiv ID: 2602.06033v1
분류: cs.LG
출판일: 2026년 2월 5일
PDF: PDF 다운로드

[Paper] Vision language models가 상호작용을 통해 intuitive physics를 학습할 수 있을까?

Overview

Key Contributions

방법론

결과 및 발견

실용적 시사점

제한 사항 및 향후 연구

저자

논문 정보

관련 글

[논문] Pseudo-Invertible Neural Networks

[Paper] 거의 엄격한 지속 학습을 위한 공유 LoRA 서브스페이스

[Paper] DyTopo: 시맨틱 매칭을 통한 다중 에이전트 추론을 위한 동적 토폴로지 라우팅

[Paper] CommCP: 효율적인 다중 에이전트 협조를 위한 LLM 기반 커뮤니케이션과 컨포멀 프레딕션