[Paper] CRISP: 접촉 기반 Real2Sim from Monocular Video with Planar Scene Primitives

발행: (2025년 12월 17일 오전 03:59 GMT+9)
9 min read
원문: arXiv

Source: arXiv - 2512.14696v1

개요

이 논문은 CRISP를 소개한다. 이 파이프라인은 일반적인 단일 카메라 비디오를 인간 수행자와 주변 환경 모두에 대한 물리‑준비된 시뮬레이션으로 변환한다. 포인트‑클라우드 재구성에 단순한 평면 프리미티브를 맞추고 사람의 자세에서 얻은 접촉 단서를 활용함으로써, CRISP는 깨끗하고 충돌‑없는 기하학을 생성하며, 이를 강화‑학습(RL) 컨트롤러에 직접 입력할 수 있다. 그 결과, 모션‑트래킹 실패가 크게 감소하고 시뮬레이션 속도가 빨라져 로봇공학, AR/VR, 인터랙티브 AI 분야에서 대규모 실‑투‑시뮬 파이프라인의 문을 열게 된다.

핵심 기여

  • 접촉 기반 장면 재구성 – 인간 자세와 접촉점을 사용해 가려진 표면(예: 의자 좌석의 숨겨진 부분)을 추론합니다.
  • 평면 원시 도형 피팅 – 깊이, 표면 법선, 광학 흐름에 대한 가벼운 클러스터링 단계로 잡음이 많은 메쉬 대신 볼록하고 시뮬레이션에 적합한 기하학을 생성합니다.
  • 루프 내 물리 검증 – 복원된 인간과 장면을 인간형 RL 컨트롤러에 적용해 물리적 타당성을 확인합니다.
  • 큰 성능 향상 – 벤치마크 데이터셋에서 모션 트래킹 실패율을 55.2 %에서 6.9 %로 감소시키고, RL 시뮬레이션 속도를 약 43 % 가속합니다.
  • 광범위한 적용 가능성 – 제어된 데이터셋(EMDB, PROX)뿐 아니라 실제 영상, 인터넷 클립, 심지어 AI 생성(Sora) 영상에서도 입증되었습니다.

방법론

  1. 단안 비디오 → 고밀도 포인트 클라우드

    • 상용 멀티뷰 구조‑from‑모션(SfM) 및 깊이 추정 네트워크를 사용해 프레임별 포인트 클라우드와 해당 표면 법선, 광류(optical flow)를 생성합니다.
  2. 평면 프리미티브로 클러스터링

    • 포인트를 깊이, 법선 방향, 움직임 일관성의 유사성에 따라 그룹화합니다.
    • 각 클러스터를 볼록 평면 프리미티브(예: 테이블 상판의 경우 직사각형)로 근사합니다. 이를 통해 물리 엔진이 다루기 쉬운 깔끔하고 저폴리곤 형태의 씬 표현을 얻습니다.
  3. 접촉 기반 가림(occlusion) 보완

    • 인간 자세 추정이 접촉 지점(발이 바닥에 닿는 지점, 손이 의자에 놓인 지점 등)을 식별합니다.
    • 접촉 표면이 부분적으로 가려진 경우, 알고 있는 자세와 평면 프리미티브 모델을 이용해 누락된 기하학을 외삽합니다.
  4. 인간 움직임 추출

    • 별도의 자세 추적 네트워크가 시간에 따라 3D 스켈레톤을 복원합니다.
    • 스켈레톤을 관절 제한과 동역학을 갖춘 전체 몸통 휴머노이드 모델에 리타게팅합니다.
  5. 강화 학습을 통한 물리 검증

    • 재구성된 씬과 휴머노이드를 강화 학습(RL) 컨트롤러에 입력하여 관찰된 움직임을 재현하도록 시도합니다.
    • 컨트롤러가 충돌이나 불안정 없이 궤적을 따라갈 수 있으면 재구성을 승인하고, 그렇지 않으면 파이프라인이 기하학이나 접촉을 정제하도록 반복합니다.

전체 과정은 완전 자동화되어 단일 GPU에서 실행되며, 대규모 비디오 컬렉션에 실용적입니다.

Source:

결과 및 발견

DatasetBaseline Failure RateCRISP Failure RateSpeed‑up (RL steps/sec)
EMDB55.2 %6.9 %+43 %
PROX48.7 %7.4 %+41 %
  • Failure rate는 기하학 오류나 상호 침투 때문에 RL 컨트롤러가 기록된 움직임을 재현하지 못한 비율을 나타냅니다.
  • Simulation throughput가 향상되는 이유는 평면 프리미티브가 충돌 검사 복잡성을 감소시키기 때문입니다.
  • YouTube 스타일 클립과 Sora가 생성한 비디오에 대한 정성적 테스트 결과, CRISP는 객체가 몇 프레임에만 나타나더라도 의자, 테이블, 바닥 등을 설득력 있게 재구성할 수 있음을 보여줍니다.

전체적으로 저자들은 접촉 인식(contact‑aware) 접근 방식이 기존 데이터 기반, 물리 비의존 파이프라인에 비해 훨씬 더 신뢰성 높고 빠른 시뮬레이션을 제공한다는 것을 입증했습니다.

Practical Implications

  • Robotics – 로봇을 단일 카메라로 촬영된 실제 세계와 정확히 동일한 환경에서 시뮬레이션으로 훈련시킬 수 있어 가정 지원이나 창고 내비게이션 같은 작업의 “현실 격차”를 줄일 수 있다.
  • AR/VR content creation – 게임 개발자와 XR 디자이너가 소비자 비디오 영상을 이용해 수동 모델링 없이 인터랙티브 씬을 생성할 수 있어 몰입형 경험을 빠르게 프로토타이핑할 수 있다.
  • Digital twins for safety analysis – 엔지니어가 감시 영상으로부터 작업자의 움직임과 주변 장비를 재구성하여 가상 샌드박스에서 인체공학이나 충돌 위험을 평가할 수 있다.
  • Data‑efficient RL – 더 깔끔한 기하학은 물리 위반을 줄여 RL 에이전트가 더 빠르게, 시뮬레이션 단계도 적게 학습하게 하여 컴퓨팅 비용을 절감한다.

Because the pipeline works on “in‑the‑wild” videos, it can be scaled to massive public video archives, potentially creating a library of ready‑to‑simulate human‑environment interactions.

Limitations & Future Work

  • Planar assumption – 이 방법은 평면이 지배적인 환경에서 뛰어나지만, 매우 곡선이거나 유기적인 물체(예: 소파, 식물)는 과도하게 단순화될 수 있습니다.
  • Reliance on accurate pose & depth – 상위 단계의 포즈 추정기나 깊이 네트워크에서 발생하는 오류는 특히 저조도나 빠른 움직임이 있는 클립에서 전파될 수 있습니다.
  • Static scene focus – 움직이는 의자, 문과 같은 동적 객체는 명시적으로 모델링되지 않으며, CRISP를 동적 장면 요소를 처리하도록 확장하는 것이 아직 해결되지 않은 과제입니다.
  • Scalability of contact inference – 접촉 단서는 가림을 메우는 데 도움이 되지만, 복잡한 다중 인물 상호작용은 보다 정교한 추론이 필요할 수 있습니다.

Future directions include integrating learned shape priors for non‑planar objects, handling dynamic scene changes, and tightening the loop between RL feedback and geometry refinement for fully autonomous real‑to‑sim pipelines.

저자

  • Zihan Wang
  • Jiashun Wang
  • Jeff Tan
  • Yiwen Zhao
  • Jessica Hodgins
  • Shubham Tulsiani
  • Deva Ramanan

논문 정보

  • arXiv ID: 2512.14696v1
  • 분류: cs.CV, cs.GR, cs.RO
  • 발행일: 2025년 12월 16일
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »