미래 동적 3D 재구성: disentangled ego‑motion를 갖춘 3D 세계 모델

발행: 2일 전 (2026년 6월 17일 AM 02:59 GMT+9)

3 분 소요

원문: arXiv

개요

동적 환경의 진화를 예측하는 것은 자율 에이전트에게 매우 중요합니다. 최근 생성형 세계 모델들은 이미지 평면 내에서 ego-모션과 환경 역학을 혼합함으로써 2D 비디오 합성에 고해상도 광현실적인 성과를 거두었지만, 특히 장시간 시계 구간에서는 물체 변형이나 사라짐과 같은 물리적 일관성 문제를 보여줍니다. 본 논문에서는 FR3D라는 세계 모델을 제안합니다. 이 모델은 미래 동적 3D 재구성을 위한 지속적인 3D 잠재 표현을 예측합니다. 기존 연구들이 세계를 이미지 기반 피처 시퀀스로 다루는 것과 달리, FR3D는 장면에 대한 3D 진화를 에이전트의 trajectory와 명시적으로 분리하고, 추론된 ego-모션을 행동의 잠재적 대리자로 취급합니다. 이러한 분해는 자기 움직임과 세계 움직임 사이의 모순을 해소하여 미래에 기하학적 일관성을 보장합니다. 또한, 사전 훈련된 기반 모델의 공간적 “공통 지식”을 활용하는 교사-학생 증류 전략을 도입하여 제로샷 일반화 성능을 크게 향상시킵니다. 광범위한 실험 결과, FR3D는 모노클릭 관측을 기반으로 미래 동적 3D 재구성을 여러 데이터셋에서 2초까지 강력하게 보여줍니다. 프로젝트 페이지: https://fr3d-wm.github.io.

핵심 공헌

cs.CV

방법론

자세한 방법은 논문 전체를 참고하십시오.

실용적 의미

이 연구는 cs.CV 분야의 발전에 기여합니다.

Authors

Nils Morbitzer
Jonathan Evers
Artem Savkin
Thomas Stauner
Nassir Navab
Federico Tombari
Stefano Gasperini

논문 정보

arXiv ID: 2606.18250v1
Categories: cs.CV
발행일: 2026년 6월 16일
PDF: 다운로드 PDF

미래 동적 3D 재구성: disentangled ego‑motion를 갖춘 3D 세계 모델

개요

핵심 공헌

방법론

실용적 의미

Authors

논문 정보

관련 글

네이티브 액티브 퍼셉션을 통한 멀티모달 이해 추론

[논문] 현재 관측을 넘어서: 제어 가능한 비마르코 게임에서의 다중모달 대형 언어 모델 평가

‘Do as I Do’ 논문: 일상 영상의 민첩 조작 데이터

[논문] 참조 기반 다중 스피커 오디오 씬 생성