MolmoMotion: 언어 기반 3D 움직임 예측

발행: (2026년 6월 18일 AM 12:26 GMT+9)
11 분 소요

출처: Hugging Face 블로그

Back to Articles
https://huggingface.co/Ai2Comms

🧠 Models: https://huggingface.co/collections/allenai/molmomotion | 📄 Tech Report: https://allenai.org/papers/molmomotion | 📊 Data: https://huggingface.co/datasets/allenai/molmo-motion-1m | 💻 Code: https://github.com/allenai/molmo-motion.git | 🌐 Project Page: https://molmomotion.github.io/

기계는 이제 영상을 보면 물체와 포인트가 장면에 어떻게 움직이는지 매우 높은 신뢰도로 추적할 수 있을만큼 훌륭하게 움직임을 인식하고 있습니다. 하지만 인식은 본질적으로 반향적입니다: 이미 발생한 움직임을 설명합니다. 우리가 구축하고자 하는 시스템과 애플리케이션들은 이를 대신해 전망을 보어야 합니다. 로봇이 컵을 잡으려면, 그 컵이 닿기 전에는 어떻게 움직일지 예측해야 합니다. 비디오 생성기는 물리적으로 현실적인 프레임을 만들기 위해 다음에 어떤 움직임이 realistic(실istic)인지를 알아야 합니다.

움직임 예측은 관측보다 어렵지만, 많은 상황에서는 훨씬 더 유용합니다.

이 아이디어는 **MolmoMotion**이라는 새로운 움직임 예측 모델의 동기를 제공했으며, 오늘 공개합니다. 영상 프레임 하나와 객체에 표시된 3D 포인트, 그리고 동작을 설명하는 텍스트 지침(예: “테이블 위에 과일이 들어 있는 나무 그릇을 이동하고 회전시키세요”)을 주면 MolmoMotion은 다음 몇 초 동안 3D 공간에서 해당 포인트가 어떻게 움직일지 예측합니다. 이는 기존 예측 방법보다 현저히 우수한 성능을 달성합니다.

[View video](https://stream.mux.com/tFUDQIEocknFyVAHy2uLFlSh9HMoXets/ high.mp4)

RGB 관측과 객체에 대한 쿼리 포인트 집합, 그리고 동작 설명을 주면 MolmoMotion은 해당 물체의 미래 3D 포인트 궤적을 예측합니다. 이러한 예측된 궤적은 로봇 계획 및 궤도 조건부 비디오 생성과 같은 다운스트림 애플리케이션을 구동할 수 있습니다.

모델과 함께 **MolmoMotion-1M**이라는 116만 개의 영상에서 추출된 동작 설명과 paired된 3D 포인트 궤적 모음도 공개합니다. 또한 PointMotionBench, 객체 중심 3D 움직임 예측 정확도를 측정하도록 설계된 인간 검증 벤치마크도 출시합니다. 이 벤치마크는 2,700개의 영상 클립을 포함하고 있습니다.

MolmoMotion과 같은 움직임 예측 모델은 로봇 계획부터 제어 가능한 비디오 생성까지 다양한 다운스트림 작업에 유용하게 활용될 수 있음을 확인했습니다. 우리는 모델 가중치와 MolmoMotion-1M 데이터셋, 그리고 PointMotionBench 벤치마크를 공개적으로 제공하여 커뮤니티가 연구하고 개선하며 맞춤화할 수 있도록 합니다.

MolmoMotion: 안쪽 구조

MolmoMotion은 물체와 연결된 3D 포인트를 세계 좌표계에 배치해 전체 영상 렌더링 비용 없이 움직임을 캡처하는 데 의도적이고 효율적인 방식으로 동작을 표현합니다. 우리는 이 représentations를 선택했으며, 다음과 같은 세 가지 특성을 갖춘 일반적인 움직임 표현이 필요했기 때문입니다:

  • 클래스 무관: 인간 몸, 손, 단단한 물체 또는 기타 고정된 카테고리용 템플릿에 묶이지 않음.
  • 뷰 안정적: 동일한 물리적 움직임이 카메라와 시점 변화에 관계없이 일관되게 표현되어야 함.
  • 다운스트림 시스템에서 물理적인 움직임을 추론하는 데 바로 활용 가능.

고려한 표현들 중 이 representation은 모두 세 가지 특성을 모두 충족하는 유일한 옵션이었습니다. 표면 포인트의 희소 집합은 물체 유형에 관계없이 단단하고, 연결되어 있으며(제한 범위 내에서는) 변형 가능한 움직임을 설명할 수 있습니다.

점들은 공유된 세계 좌표계에 존재하기 때문에, 그들의 궤적은 카메라 움직임과 시점 변화에도 안정적으로 유지됩니다. 또한 이들은 3D 공간 내의 컴팩트한 명시적 궤적이기 때문에 로봇 정책이나 비디오 생성 모델과 같은 시스템에 직접 전달될 수 있습니다.

이러한 궤적을 예측하기 위해 MolmoMotion은 Molmo 2를 기반으로 삼아 이미지에 언어 지침과 객체 및 포인트를 연결할 수 있게 합니다. 주어진 짧은 영상 히스토리, 동작 설명, 초기 3D 위치가 있는 쿼리 점 집합을 입력으로 제공하면 모델은 먼저 참조되는 객체, 쿼리 포인트, 그리고 지시문이 설명하는 움직임을 식별합니다. 이후 각 점의 미래 3D 궤적을 예측합니다.

MolmoMotion에는 두 가지 변종이 있습니다:

  • 자동회귀 변종(MolmoMotion-AR)은 단계별로 미래 좌표를 예측합니다. 3D 좌표는 VLM에서 사용되는 좌표 스타일 예측을 따르며 구조화된 텍스트로 표현하고, 미래 궤적을 시간 순서대로 작성합니다. 각 새로운 좌표는 이미 생성된 궤적에 조건부되므로 매끄러운 롤아웃을 유도하고, 미래 경로가 명확히 정의된 경우 가장 정확한 성능을 제공합니다.
  • 흐름-매칭 변종(MolmoMotion-FM)은 노이즈를 움직임으로 변환하여 연속적인 3D 공간에서 궤적을 예측합니다. 이는 지시문이 여러 가능한 미래 중 하나를 수용할 때 불확실성을 표현하는 데 더 적합하게 만들어 줍니다.

model_arc (1)
MolmoMotion 아키텍처. Molmo 2 기반의 공유 입력은 RGB 관측 이미지 토큰, 동작 설명 텍스트 토큰, 그리고 Molmo 2 비전 인코더에서 샘플링된 2D 쿼리 포인트 특성 토큰으로 구성됩니다. MolmoMotion-AR은 초기 3D 쿼리 좌표를 인코딩하고, 미래 궤적을 양자화된 좌표 텍스트로 디코딩합니다. 반면 MolmoMotion-FM은 이를 직접 연속적인 3D 좌표 공간에서 표현합니다.

MolmoMotion-1M 및 PointMotionBench 소개

MolmoMotion을 훈련하기 위해 아직 존재하지 않았던 데이터가 필요했습니다: 특정 객체에 고정된 3D 포인트 궤적과 동작 설명이 포함된 대규모 영상입니다. 기존 3D 트래킹 데이터셋은 규모와 도메인이 제한적이었고, 인터넷 영상은 MolmoMotion과 같은 예측기에 필요한 규모와 다양성을 제공하지만 3D 주석은 포함하고 있지 않았습니다. 따라서 우리는 무제한 영상에서 객체-고정된 3D 궤적을 추출하는 자동 파이프라인을 구축했습니다.

입력 영상과 동작 설명을 주면 우리 annotation 파이프라인은 메트릭 세계 좌표계에 있는 객체-고정된 3D 포인트 궤적을 생성합니다. (아래 그림은 각 단계를 보여줍니다.) 주요 난점은 무제한 영상에서 추출된 원시 트랙이 노이즈가 많다는 점입니다(깊이와 추적 오류로 인해 포인트가 진동하고 흔들림), 그리고 객체가 대부분의 영상에서 정지해 있는 경우가 많습니다.

데이터 신뢰성을 높이기 위해 객체와 일관되게 움직이지 않는 포인트를 필터링하고, 남은 궤적을 부드럽게 만들며, 실제 물체가 움직이는 구간으로 클립을 세분화합니다.

고속 파이프라인을 실행하면 MolmoMotion-1M을 얻었습니다— 현재까지 알려진 가장 큰 동작 설명 및 객체-고정된 3D 포인트 궤적 모음이며, 736가지 움직임 유형과 5,600개의 독특한 물체를 포함하고 있습니다.

[View video](https://stream.mux.com/ESYTT69ckxwlqP7Cn02V1qYduekjvTW026/ high.mp4)

0 조회
Back to Blog

관련 글

더 보기 »