[Paper] 세상은 당신의 캔버스: 참조 이미지, 궤적 및 텍스트를 활용한 프롬프트 가능한 이벤트 그리기

발행: (2025년 12월 19일 오전 03:59 GMT+9)
9 min read
원문: arXiv

Source: arXiv - 2512.16924v1

개요

이 논문은 WorldCanvas라는 새로운 프레임워크를 소개합니다. 이 프레임워크는 사용자가 자연어 프롬프트, 움직임 궤적, and 참조 이미지를 세 가지 직관적인 입력을 혼합하여 동적 비디오 장면을 “그릴” 수 있게 합니다. 이러한 모달리티를 결합함으로써 시스템은 일관되고 제어 가능한 비디오 이벤트를 생성할 수 있습니다—예를 들어 다중 에이전트 상호작용, 지정된 시점에 나타나거나 사라지는 객체, 혹은 물리적으로 불가능한 동작까지—클립 전체에 걸쳐 객체 정체성과 장면 일관성을 유지합니다.

주요 기여

  • Multimodal Prompting Engine – 텍스트, 2‑D/3‑D 궤적, 그리고 레퍼런스 이미지를 하나의 통합 제어 신호로 결합하여 비디오 합성을 수행합니다.
  • Trajectory‑Driven Motion Encoding – 객체가 어디서, 언제, 어떻게 움직이는지를 포착하는 압축 표현을 도입하고, 진입/퇴출을 위한 가시성 플래그를 포함합니다.
  • Reference‑Guided Appearance – 예시 이미지를 사용해 생성된 객체의 시각적 스타일과 정체성을 고정시켜, 외관 및 텍스처에 대한 세밀한 제어를 가능하게 합니다.
  • Consistent World Modeling – 일시적인 가림이나 “마법 같은” 사라짐 이후에도 객체가 정체성과 장면 레이아웃을 유지하는 시간적 일관성을 보여줍니다.
  • Open‑source Demo & Dataset – 코드, 사전 학습 모델, 그리고 재현성을 위한 프롬프트‑궤적‑이미지 삼중항이 포함된 큐레이션된 데이터셋을 제공하는 프로젝트 페이지를 제공합니다.

방법론

WorldCanvas는 확산 기반 비디오 생성기를 기반으로 하지만 두 가지 새로운 조건 스트림을 추가합니다:

  1. Trajectory Conditioning – 각 움직이는 엔터티는 프레임마다 (x, y) 좌표와 가시성 플래그의 시퀀스로 설명됩니다. 이 궤적은 작은 트랜스포머를 통해 임베딩되어 움직임 단서를 직접 확산 잠재 공간에 주입합니다.
  2. Reference Image Conditioning – 대상 객체의 단일 이미지를 사전 학습된 비전 인코더(예: CLIP‑ViT)를 통해 전달합니다. 그 임베딩은 텍스트 임베딩과 결합되어 생성된 객체가 제공된 시각적 스타일과 일치하도록 보장합니다.

학습 중에 모델은 짧은 비디오 클립, 해당 텍스트 설명, 실제 궤적(오프‑더‑쉘프 트래커를 통해 추출) 및 클립에서 샘플링된 참조 프레임이라는 쌍을 봅니다. 손실은 표준 확산 디노이징 목표에 추가 정렬 항목을 결합하여 제공된 궤적 및 참조 외관으로부터의 드리프트를 벌합니다.

추론 단계에서 개발자는 세 가지 프롬프트 중任意 조합을 제공할 수 있으며, 모델은 모든 제약을 만족하는 비디오를 합성합니다.

결과 및 발견

  • 정성적: 생성된 비디오는 제공된 경로를 따라 부드러운 움직임을 보여주며, 레퍼런스 이미지와 일치하는 정확한 객체 텍스처와, 객체가 일시적으로 사라져도 일관된 장면 레이아웃을 유지합니다.
  • 정량적: 보류된 벤치마크에서 WorldCanvas는 텍스트 전용 베이스라인에 비해 궤적 준수 (평균 종점 오류로 측정) 를 ≈30 % 향상시키고, 외관 충실도 (레퍼런스 프레임에 대한 LPIPS로 측정) 를 ≈22 % 증가시킵니다.
  • 사용자 연구: 30명의 참가자를 대상으로 한 평가에서, 사용자 중 78 %가 WorldCanvas 출력물을 기존 텍스트‑투‑비디오 도구보다 “더 제어 가능”하다고 평가했으며, 65 %는 멀티모달 프롬프트가 “창의적 프로토타이핑에 직관적”이라고 답했습니다.

실용적 함의

  • 게임 및 AR/VR 빠른 프로토타이핑 – 디자이너는 코드를 작성하거나 자산을 직접 애니메이션하지 않고도 캐릭터 움직임, 객체 생성, 시각 스타일을 스크립트화할 수 있습니다.
  • 자동 콘텐츠 생성 – 마케팅 팀은 제품 사진(레퍼런스)과 간단한 스토리보드(궤적 + 캡션)를 입력하여 짧은 제품 데모를 생성할 수 있습니다.
  • 시뮬레이션 및 교육 – 로봇공학 연구자는 정확한 움직임 패턴과 시각적 단서를 포함한 합성 비디오 시나리오를 만들어 도메인 랜덤화 학습에 활용할 수 있습니다.
  • 창작 도구 – 아티스트는 궤적 타이밍을 조정하는 것만으로 “불가능한” 물리(예: 중력에 반대되는 물체 이동)를 실험할 수 있어 시각적 스토리텔링의 새로운 길을 열 수 있습니다.

제한 사항 및 향후 작업

  • Scalability of Trajectories – 현재 구현은 추론 시간이 눈에 띄게 증가하기 전까지 약 5명의 에이전트 정도만 다룰 수 있습니다; 혼잡한 장면으로 확장하는 것은 아직 해결되지 않은 과제입니다.
  • Resolution & Duration – 생성된 비디오는 256 × 256 px 및 약 3 초로 제한됩니다; 더 높은 해상도와 긴 클립은 보다 효율적인 diffusion 백본이 필요합니다.
  • Generalization to Unseen Objects – 레퍼런스 이미지가 외관을 안내하지만, 모델은 훈련 데이터와 크게 다른 객체(예: 이국적인 야생동물)에서 종종 어려움을 겪습니다.
  • Future Directions – 저자들은 더 나은 다중 객체 조정을 위해 계층적 씬 그래프를 통합하고, HD 출력을 위한 잠재 공간 업스케일링을 탐색하며, 멀티모달 비디오 합성을 위한 커뮤니티 벤치마크를 개방할 계획입니다.

저자

  • Hanlin Wang
  • Hao Ouyang
  • Qiuyu Wang
  • Yue Yu
  • Yihao Meng
  • Wen Wang
  • Ka Leong Cheng
  • Shuailei Ma
  • Qingyan Bai
  • Yixuan Li
  • Cheng Chen
  • Yanhong Zeng
  • Xing Zhu
  • Yujun Shen
  • Qifeng Chen

논문 정보

  • arXiv ID: 2512.16924v1
  • 카테고리: cs.CV
  • 출판일: December 18, 2025
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »

[Paper] 정교한 World Models

최근 3D 재구성 분야의 진보로 일상적인 환경에서 현실적인 디지털 트윈을 쉽게 만들 수 있게 되었습니다. 그러나 현재 디지털 트윈은 여전히 크게…