[Paper] Sketch2Colab: 스케치 기반 다중 인간 애니메이션 via 제어 가능한 Flow Distillation
Source: arXiv - 2603.02190v1
개요
Sketch2Colab은 간단한 2‑D 스토리보드 스케치를 현실적인, 객체 인식 3‑D 다중 인간 애니메이션으로 변환하는 새로운 프레임워크입니다. 스케치 기반 확산 사전 모델과 빠른 “정정 흐름”(rectified‑flow) 학생 모델을 결합하여, 개발자가 에이전트, 관절, 타이밍 및 접촉을 엄격히 제어하면서 인간‑객체 상호작용을 조정된 형태로 생성할 수 있게 합니다.
주요 기여
- Sketch‑conditioned motion generation – 스토리보드 스타일 스케치를 직접 3‑D 다중 인간 모션으로 매핑하며, 대량의 짝지어진 모션 데이터가 필요하지 않음.
- Two‑stage diffusion‑to‑flow distillation – 확산 사전 모델을 학습한 뒤, 이를 잠재‑공간 정정‑플로우 학생 모델로 증류하여 빠르고 안정적인 샘플링을 가능하게 함.
- Differentiable constraint energies – 키프레임, 궤적, 물리 기반 손실을 통합하여 흐름 필드가 풍부한 상호작용 제약을 만족하도록 유도함.
- CTMC‑based event planner – 연속‑시간 마코프 체인을 도입해 이산 이벤트(접촉, 잡기, 전달)를 스케줄링하여 선명하고 단계가 명확한 협업을 생성함.
- State‑of‑the‑art adherence & speed – 확산‑전용 베이스라인보다 높은 제약 만족도와 지각 품질을 보여주면서 추론 시간을 한 차례 정도 감소시킴.
방법론
-
Sketch‑driven diffusion prior – 2‑D 스케치를 기반으로 잠재 움직임 표현을 예측하도록 조건부 확산 모델을 학습합니다. 모델은 스케치의 공간 레이아웃을 준수하는 다중 인간 움직임의 가능한 분포를 학습합니다.
-
Rectified‑flow distillation – 확산 사전 모델을 동일한 잠재 공간에서 동작하는 결정론적 흐름 모델로 증류합니다. 이 “학생” 모델은 단일 전방 패스로 샘플을 생성할 수 있는 전송 맵을 학습하여 추론 속도를 크게 높입니다.
-
Energy‑guided transport – 미분 가능한 에너지 항이 다음을 인코딩합니다:
- Keyframe constraints (특정 시점의 관절 위치)
- Trajectory constraints (손이나 객체의 원하는 경로)
- Physics constraints (충돌 회피, 지면 접촉)
이러한 에너지는 흐름 필드에 역전파되어 생성된 움직임이 스토리보드를 만족하도록 유도합니다.
-
CTMC event planner – 연속시간 마코프 체인이 이산 상호작용 이벤트를 모델링합니다. 플래너는 이벤트 시간과 유형(예: “t=1.2 s에서 손 넘김”)의 시퀀스를 샘플링하고, 이는 흐름 역학을 조정하여 다중 에이전트 행동이 시간적으로 정렬되고 물리적으로 타당하도록 합니다.
-
Latent‑space decoding – 최종 잠재 움직임을 전체 3‑D 골격 궤적 및 객체 자세로 디코딩하여 렌더링이나 하위 시뮬레이션에 바로 사용할 수 있게 합니다.
결과 및 발견
- 제약 준수: CORE4D 및 InterHuman 벤치마크에서 Sketch2Colab은 키프레임 오류를 약 35 % 감소시키고, 접촉 정확도(예: 손‑물체 접촉)를 확산 전용 베이스라인에 비해 약 28 % 향상시켰습니다.
- 지각 품질: 인간 평가자들은 생성된 애니메이션을 5‑점 Likert 척도에서 1.2 × 더 현실감 있게 평가했습니다.
- 추론 속도: 정정‑플로우 학생 모델은 단일 RTX 3090에서 약 120 ms에 5‑초 길이의 다중‑인간 클립을 생성하며, 확산 베이스라인은 약 1.5 s가 소요됩니다.
- 다중‑엔티티 조건화에 대한 견고성: 4명의 상호작용 에이전트와 다수의 객체가 있더라도 시스템은 순수 확산 모델에서 흔히 발생하는 모드 붕괴 없이 안정적인 샘플링을 유지합니다.
실용적 함의
- 게임 및 VR/AR에 대한 빠른 프로토타이핑: 디자이너는 빠른 스토리보드를 스케치하고 즉시 물리적으로 타당한 다중 캐릭터 애니메이션을 얻을 수 있어 반복 주기를 크게 단축한다.
- 자동화된 콘텐츠 생성 파이프라인: 스튜디오는 방대한 2‑D 컨셉 아트 라이브러리를 Sketch2Colab에 입력하여 모션 캡처 데이터를 초기화함으로써 비용이 많이 드는 모캡 세션에 대한 의존도를 낮출 수 있다.
- 인터랙티브 로봇 시뮬레이션: CTMC 플래너의 이벤트‑레벨 제어를 협업 로봇‑인간 작업 시뮬레이션에 재활용할 수 있으며, 여기서는 핸드오버와 그립의 정확한 타이밍이 중요하다.
- AI‑지원 애니메이션 도구: 기존 도구(예: Blender, Unity)에 플러그인 형태로 통합하면 아티스트가 스케치를 다듬고, 제약 가중치를 조정하며, 3‑D 모션을 즉시 미리볼 수 있다.
제한 사항 및 향후 작업
- 스케치 품질 의존성: 매우 추상적이거나 모호한 스케치는 모호한 움직임 가설을 초래할 수 있습니다; 현재 시스템은 비교적 명확한 공간적 단서를 전제로 합니다.
- 고정된 신체 토폴로지: 모델은 표준 인간 골격을 기반으로 학습되었습니다; 비인간 아바타나 고도로 스타일화된 리그로 확장하려면 추가 데이터가 필요합니다.
- 물리 현실감: 기본적인 접촉 및 충돌 제약은 적용되지만, 섬세한 동역학(예: 옷감 시뮬레이션, 연성 몸체 변형)은 모델링되지 않습니다.
- 향후 방향: 저자들은 보다 풍부한 동역학을 위해 학습된 물리 시뮬레이터를 통합하고, 멀티모달 조건(예: 오디오 단서) 탐색을 진행하며, 프로덕션 파이프라인에 손쉽게 통합할 수 있는 경량 SDK를 오픈소스화할 계획입니다.
저자
- Divyanshu Daiya
- Aniket Bera
논문 정보
- arXiv ID: 2603.02190v1
- Categories: cs.CV, cs.AI, cs.GR, cs.HC, cs.LG
- Published: 2026년 3월 2일
- PDF: PDF 다운로드