[논문] 3D 궤적과 텍스트로 제어 가능한 동적 3D 형태 생성
Source: arXiv - 2606.05162v1
개요
이 논문은 T2Mo라는 피드‑포워드 신경망 프레임워크를 소개한다. T2Mo는 텍스트 설명과 3D 궤적이라는 두 직관적인 입력으로부터 동적인 3D 형태(예: 애니메이션 메시)를 합성할 수 있다. 텍스트라는 의미적 가이드와, 특정 점들의 움직임을 지정하는 궤적이라는 정밀한 공간 제어를 결합함으로써, T2Mo는 표현력이 풍부하면서도 사용자가 지정한 경로를 정확히 따르는 움직임을 생성한다—이는 순수 텍스트‑투‑애니메이션 모델이 달성하기 어려운 점이다.
주요 기여
- 이중 모달 조건화: 자연어 프롬프트와 명시적인 3D 궤적 제약을 결합하는 새로운 방식을 제시하여 제어 가능한 움직임 합성을 가능하게 한다.
- 형상‑기반 궤적 임베딩: 희소하거나 밀집된 궤적 집합을 전체 메시에 걸쳐 형상을 인식하는 토큰 시퀀스로 변환하는 강인한 인코더를 제공, 어떠한 궤적 구성도 처리할 수 있다.
- 엔드‑투‑엔드 피드‑포워드 아키텍처: 비용이 많이 드는 반복 최적화나 별도의 비디오 생성 파이프라인 없이 직접 동적 메쉬를 생성한다.
- 포괄적 평가: 정량적 지표, 정성적 시각화, 사용자 연구를 통해 텍스트‑전용 및 비디오 기반 연쇄 모델에 비해 궤적 충실도와 의미적 일치도가 우수함을 입증한다.
방법론
-
입력 표현
- 텍스트 프롬프트: 사전 학습된 언어 모델(예: CLIP‑text)로 토크나이즈한다.
- 3D 궤적: 객체 공간에 정의된 점별 경로 ({(p_i(t))}) 집합; 제어점이 적은 희소 궤적이 될 수도 있고, 전체 표면을 따라 정의된 밀집 궤적이 될 수도 있다.
-
형상‑기반 궤적 인코더
- 각 궤적 점을 정적 메시에 투사한다.
- 그래프 기반 네트워크(예: Graph Neural Network)를 이용해 희소 궤적 정보를 전체 표면에 확산시켜, 궤적 토큰 시퀀스를 생성한다. 이 시퀀스는 객체의 기하학을 인식한다.
-
퓨전 모듈
- 텍스트 토큰과 궤적 토큰을 연결(concatenate)한다.
- 이를 트랜스포머 디코더에 입력하여 시간 단계별 정점 변위 필드를 예측한다. 결과적으로 정적 메쉬를 “애니메이션”한다.
-
메시 디코더
- 예측된 변위를 정규 메시에 적용해 일련의 애니메이션 메쉬(동적 3D 형태)를 만든다.
- 전체 파이프라인은 완전히 미분 가능하며 단일 전방 패스로 실행돼, 인터랙티브 사용이 가능할 정도로 빠르다.
결과 및 발견
- 궤적 충실도: 제공된 궤적과의 평균 점별 편차를 측정하는 커스텀 지표에서, T2Mo는 텍스트‑전용 베이스라인보다 ≈30 %, 연쇄 비디오 파이프라인보다 ≈18 % 높은 성능을 보였다.
- 의미 정렬: 인간 평가자들은 T2Mo의 움직임이 텍스트 설명과 일치한다고 평균 4.2/5점을 주었으며, 가장 강력한 베이스라인은 3.5점에 그쳤다.
- 표현력: “새가 날개를 퍼덕이며 위로 나선형으로 상승한다”와 같은 복합 동작을 생성하면서도 고수준 의도와 저수준 경로 제약을 모두 만족한다.
- 속도: RTX 3090 기준 30프레임 애니메이션을 ≈120 ms에 추론해, 거의 실시간에 가까운 프로토타이핑이 가능하다.
실용적 함의
- 게임 개발 및 VR/AR: 디자이너가 짧은 설명과 몇 개의 제어 경로만으로 캐릭터·오브젝트 애니메이션을 빠르게 프로토타이핑할 수 있어, 수작업 키프레임에 비해 반복 주기가 크게 단축된다.
- 로봇 시뮬레이션: 엔지니어가 원하는 엔드‑이펙터 궤적과 고수준 작업 의미(예: “컵을 부드럽게 집어 올린다”)를 정의하면, 현실적인 물체 움직임을 자동으로 생성해 훈련 시뮬레이터에 활용할 수 있다.
- 콘텐츠 제작 플랫폼: 3D 에셋 마켓플레이스가 “텍스트‑플러스‑궤적” 생성 도구를 제공하면, 깊은 애니메이션 전문 지식 없이도 맞춤형 애니메이션 에셋을 즉시 제작할 수 있다.
- 데이터 증강: T2Mo가 만든 합성 동적 메시는 3D 행동 인식이나 움직임 예측과 같은 다운스트림 작업을 위한 학습 데이터셋을 풍부하게 만든다.
제한점 및 향후 연구
- 정적 메쉬 의존성: T2Mo는 사전에 존재하는 정규 메쉬를 전제로 한다. 형태와 움직임을 동시에 생성하는 문제는 아직 해결되지 않았다.
- 궤적 모호성: 지나치게 희소하거나 모순되는 궤적은 비현실적인 변형을 초래할 수 있다. 저자들은 물리 기반 정규화자를 통합하는 방안을 제시한다.
- 고해상도 메쉬 확장성: 현재 구현은 약 10k 정점까지의 메쉬에서 잘 동작하지만, 수백만 정점 규모를 다루려면 계층적 혹은 포인트‑클라우드 기반 확장이 필요하다.
- 미지 객체 카테고리 일반화: 모델은 학습 시 본 카테고리에서 가장 좋은 성능을 보인다. 향후 연구에서는 도메인‑적응 파인‑튜닝이나 메타‑러닝을 통해 적용 범위를 넓히고자 한다.
저자
- Jaeyeong Kim
- Ines Kim
- Jahyeok Koo
- Seungryong Kim
논문 정보
- arXiv ID: 2606.05162v1
- 분류: cs.CV
- 발표일: 2026년 6월 3일
- PDF: PDF 다운로드