[논문] 비디오 기반 모델은 직관 물리학을 이해할 수 있을까? 층별 탐색 분석

발행: (2026년 6월 9일 AM 12:40 GMT+9)
3 분 소요
원문: arXiv

출처: arXiv - 2606.09646v1

개요

우리는 사전 학습된 비디오 기반 모델이 동결된 표현 안에 직관 물리학 정보를 인코딩하고 있는지, 그리고 이러한 정보가 모델군, 레이어, 탐색 유형에 따라 어떻게 달라지는지를 조사한다. 동결된 특징 탐색을 IntPhys2와 Minimal Video Pairs (MVP) 데이터셋에 적용하여, 예측 기반 공동 임베딩 모델(V‑JEPA), 마스크 복원 모델(VideoMAE), 그리고 확산 기반 비디오 생성기(LTX‑Video)를 비교한다. V‑JEPA는 특히 시간 역학을 모델링하는 탐색에서 전반적으로 가장 강력한 결과를 보이며, VideoMAE는 경쟁력을 유지하고 LTX‑Video는 약하지만 무시할 수 없는 신호를 회복한다. 레이어별 분석 결과, 물리학과 관련된 정보는 초기 레이어에서는 가장 약하고 중간‑후반 레이어에서 가장 쉽게 접근할 수 있음을 보여준다. 또한 프레임 순서를 뒤섞는 시간 제어 실험에서는 성능이 크게 감소하는데, 특히 MVP에서 그 효과가 두드러진다. 이러한 결과는 직관 물리학 지식이 사전 학습된 비디오 표현에 신뢰성 있게 나타나지만, 그 접근성은 사전 학습 방식, 표현 깊이, 그리고 읽어내는 메커니즘에 크게 좌우된다는 점을 시사한다.

주요 기여

이 논문은 다음 분야의 연구를 제시한다:

  • cs.CV
  • cs.AI
  • cs.LG

방법론

자세한 방법론은 전체 논문을 참고하시기 바랍니다.

실용적 함의

본 연구는 cs.CV 분야의 발전에 기여한다.

저자

  • Samuele Punzo
  • Niccolò Caselli
  • Ippokratis Pantelidis
  • Francesco Massafra
  • Salvatore Lo Sardo
  • Mohammadreza Salehi

논문 정보

  • arXiv ID: 2606.09646v1
  • 분류: cs.CV, cs.AI, cs.LG
  • 발표일: 2026년 6월 8일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »