[논문] 3D 궤적과 텍스트로 제어 가능한 동적 3D 형태 생성

발행: 1주 전 (2026년 6월 4일 AM 02:58 GMT+9)

8 분 소요

원문: arXiv

Source: arXiv - 2606.05162v1

개요

이 논문은 T2Mo라는 피드‑포워드 신경망 프레임워크를 소개한다. T2Mo는 텍스트 설명과 3D 궤적이라는 두 직관적인 입력으로부터 동적인 3D 형태(예: 애니메이션 메시)를 합성할 수 있다. 텍스트라는 의미적 가이드와, 특정 점들의 움직임을 지정하는 궤적이라는 정밀한 공간 제어를 결합함으로써, T2Mo는 표현력이 풍부하면서도 사용자가 지정한 경로를 정확히 따르는 움직임을 생성한다—이는 순수 텍스트‑투‑애니메이션 모델이 달성하기 어려운 점이다.

주요 기여

이중 모달 조건화: 자연어 프롬프트와 명시적인 3D 궤적 제약을 결합하는 새로운 방식을 제시하여 제어 가능한 움직임 합성을 가능하게 한다.
형상‑기반 궤적 임베딩: 희소하거나 밀집된 궤적 집합을 전체 메시에 걸쳐 형상을 인식하는 토큰 시퀀스로 변환하는 강인한 인코더를 제공, 어떠한 궤적 구성도 처리할 수 있다.
엔드‑투‑엔드 피드‑포워드 아키텍처: 비용이 많이 드는 반복 최적화나 별도의 비디오 생성 파이프라인 없이 직접 동적 메쉬를 생성한다.
포괄적 평가: 정량적 지표, 정성적 시각화, 사용자 연구를 통해 텍스트‑전용 및 비디오 기반 연쇄 모델에 비해 궤적 충실도와 의미적 일치도가 우수함을 입증한다.

방법론

입력 표현
- 텍스트 프롬프트: 사전 학습된 언어 모델(예: CLIP‑text)로 토크나이즈한다.
- 3D 궤적: 객체 공간에 정의된 점별 경로 ({(p_i(t))}) 집합; 제어점이 적은 희소 궤적이 될 수도 있고, 전체 표면을 따라 정의된 밀집 궤적이 될 수도 있다.
형상‑기반 궤적 인코더
- 각 궤적 점을 정적 메시에 투사한다.
- 그래프 기반 네트워크(예: Graph Neural Network)를 이용해 희소 궤적 정보를 전체 표면에 확산시켜, 궤적 토큰 시퀀스를 생성한다. 이 시퀀스는 객체의 기하학을 인식한다.
퓨전 모듈
- 텍스트 토큰과 궤적 토큰을 연결(concatenate)한다.
- 이를 트랜스포머 디코더에 입력하여 시간 단계별 정점 변위 필드를 예측한다. 결과적으로 정적 메쉬를 “애니메이션”한다.
메시 디코더
- 예측된 변위를 정규 메시에 적용해 일련의 애니메이션 메쉬(동적 3D 형태)를 만든다.
- 전체 파이프라인은 완전히 미분 가능하며 단일 전방 패스로 실행돼, 인터랙티브 사용이 가능할 정도로 빠르다.

결과 및 발견

궤적 충실도: 제공된 궤적과의 평균 점별 편차를 측정하는 커스텀 지표에서, T2Mo는 텍스트‑전용 베이스라인보다 ≈30 %, 연쇄 비디오 파이프라인보다 ≈18 % 높은 성능을 보였다.
의미 정렬: 인간 평가자들은 T2Mo의 움직임이 텍스트 설명과 일치한다고 평균 4.2/5점을 주었으며, 가장 강력한 베이스라인은 3.5점에 그쳤다.
표현력: “새가 날개를 퍼덕이며 위로 나선형으로 상승한다”와 같은 복합 동작을 생성하면서도 고수준 의도와 저수준 경로 제약을 모두 만족한다.
속도: RTX 3090 기준 30프레임 애니메이션을 ≈120 ms에 추론해, 거의 실시간에 가까운 프로토타이핑이 가능하다.

실용적 함의

게임 개발 및 VR/AR: 디자이너가 짧은 설명과 몇 개의 제어 경로만으로 캐릭터·오브젝트 애니메이션을 빠르게 프로토타이핑할 수 있어, 수작업 키프레임에 비해 반복 주기가 크게 단축된다.
로봇 시뮬레이션: 엔지니어가 원하는 엔드‑이펙터 궤적과 고수준 작업 의미(예: “컵을 부드럽게 집어 올린다”)를 정의하면, 현실적인 물체 움직임을 자동으로 생성해 훈련 시뮬레이터에 활용할 수 있다.
콘텐츠 제작 플랫폼: 3D 에셋 마켓플레이스가 “텍스트‑플러스‑궤적” 생성 도구를 제공하면, 깊은 애니메이션 전문 지식 없이도 맞춤형 애니메이션 에셋을 즉시 제작할 수 있다.
데이터 증강: T2Mo가 만든 합성 동적 메시는 3D 행동 인식이나 움직임 예측과 같은 다운스트림 작업을 위한 학습 데이터셋을 풍부하게 만든다.

제한점 및 향후 연구

정적 메쉬 의존성: T2Mo는 사전에 존재하는 정규 메쉬를 전제로 한다. 형태와 움직임을 동시에 생성하는 문제는 아직 해결되지 않았다.
궤적 모호성: 지나치게 희소하거나 모순되는 궤적은 비현실적인 변형을 초래할 수 있다. 저자들은 물리 기반 정규화자를 통합하는 방안을 제시한다.
고해상도 메쉬 확장성: 현재 구현은 약 10k 정점까지의 메쉬에서 잘 동작하지만, 수백만 정점 규모를 다루려면 계층적 혹은 포인트‑클라우드 기반 확장이 필요하다.
미지 객체 카테고리 일반화: 모델은 학습 시 본 카테고리에서 가장 좋은 성능을 보인다. 향후 연구에서는 도메인‑적응 파인‑튜닝이나 메타‑러닝을 통해 적용 범위를 넓히고자 한다.

저자

Jaeyeong Kim
Ines Kim
Jahyeok Koo
Seungryong Kim

논문 정보

arXiv ID: 2606.05162v1
분류: cs.CV
발표일: 2026년 6월 3일
PDF: PDF 다운로드

[논문] 3D 궤적과 텍스트로 제어 가능한 동적 3D 형태 생성

개요

주요 기여

방법론

결과 및 발견

실용적 함의

제한점 및 향후 연구

저자

논문 정보

관련 글

[논문] UniSHARP: 범용 선명 단안 시점 합성

[논문] MemDreamer: 계층 그래프 메모리와 에이전트형 검색으로 긴 비디오 이해의 지각·추론 분리

[논문] 스트리밍 힘 제어를 활용한 비디오 생성

[논문] 탐지 차이: 중요한 상황에서의 설명 가능성