[Paper] Video Diffusion Transformers 재활용을 통한 견고한 포인트 트래킹

발행: (2025년 12월 24일 오전 03:54 GMT+9)
8 min read
원문: arXiv

Source: arXiv - 2512.20606v1

Overview

이 논문은 DiTracker라는 새로운 포인트‑트래킹 시스템을 소개한다. 이 시스템은 원래 비디오 생성용으로 학습된 비디오 Diffusion Transformers (DiTs) – 모델을 재활용하여 비디오 프레임 간에 일치하는 포인트를 찾는다. DiTs에 내재된 시공간 어텐션을 활용함으로써, 저자들은 빠른 움직임, 가림 현상 및 기타 실제 환경의 도전 과제에서도 훨씬 더 신뢰할 수 있는 트래킹을 달성했으며, 여러 벤치마크 스위트에서 새로운 기록을 세웠다.

주요 기여

  • 잠재 추적 능력 발견 사전 학습된 비디오 Diffusion Transformers에서, 이미 강인한 시공간 대응을 인코딩하고 있음을 보여줌.
  • DiTracker 아키텍처는 DiT 특징을 경량 쿼리‑키 어텐션 모듈과 결합하여 포인트 매칭을 수행함.
  • 파라미터 효율적 적응은 LoRA(저랭크 적응) 파인튜닝을 사용하여 원본 모델 파라미터의 일부만 필요함.
  • 하이브리드 비용 융합은 DiT에서 파생된 매칭 점수를 기존 ResNet 백본과 결합하여 속도를 희생하지 않고 견고성을 향상시킴.
  • 최첨단 성능을 ITTO 및 TAP‑Vid 포인트 트래킹 벤치마크에서 달성했으며, 기존 방법보다 8× 작은 배치 크기로 학습함.

방법론

  1. Backbone 선택 – 저자들은 대규모·다양한 비디오 데이터셋(예: ImageNet‑VID, Kinetics)으로 사전 학습된 비디오 Diffusion Transformer에서 시작합니다. 이 모델들은 이미 전체 비디오 클립을 완전한 시공간 자체 주의 메커니즘으로 처리합니다.
  2. Query‑Key 어텐션 매칭 – 추적하려는 각 포인트에 대해, query 벡터는 기준 프레임에서 추출하고, key 벡터는 이후 프레임의 모든 픽셀에서 가져옵니다. 점곱 어텐션 연산을 통해 밀집된 유사도 맵이 생성되며, 여기서 가장 좋은 매치를 선택합니다.
  3. LoRA 미세조정 – 전체 DiT를 업데이트하는 대신(계산 비용이 크게 증가함), 저자들은 어텐션 레이어에 저랭크 적응 행렬을 삽입합니다. 이는 수십만 개의 학습 가능한 파라미터만 추가하여 추적 작업에서 빠른 수렴을 가능하게 합니다.
  4. ResNet과의 비용 융합 – DiT가 놓칠 수 있는 세밀한 로컬 텍스처를 포착하기 위해, 경량 ResNet 백본이 각 프레임을 독립적으로 처리합니다. 이 매칭 비용을 DiT 비용과 선형으로 결합하여 전역 컨텍스트와 로컬 디테일을 균형 있게 반영한 최종 유사도 점수를 제공합니다.
  5. 학습 체계 – 시스템은 표준 포인트 트래킹 데이터셋에서 대비 손실(contrastive loss)을 사용해 학습되며, 올바른 대응이 가장 높은 유사도를 갖도록 유도합니다. 경쟁 방법보다 8배 작은 배치 크기를 사용함에도 불구하고, LoRA 기반 적응은 빠르게 수렴합니다.

결과 및 발견

벤치마크지표 (높을수록 좋음)DiTracker이전 최고 성능
ITTO (심한 가림 및 움직임)PCK@0.10.780.71
TAP‑Vid (다양한 움직임 유형)AUC0.840.82
추론 속도FPS (1080 Ti)4530‑35
  • 가림에 대한 강인성: DiTracker는 포인트가 여러 프레임 동안 사라져도 높은 매칭 점수를 유지합니다. 이는 DiT의 장거리 시간적 컨텍스트 덕분입니다.
  • 데이터 효율성: 배치 크기를 8배 작게 하고 학습 가능한 파라미터를 크게 줄인 상태에서도 최고 성능을 달성합니다. 이는 사전 학습된 DiT가 이미 대부분의 필요한 지식을 포함하고 있음을 보여줍니다.
  • 소거 연구: ResNet 부분을 제거하면 성능이 약 4 % 감소하여 로컬 CNN 특징의 보완적 특성을 확인합니다. LoRA 튜닝은 고정된 DiT 특징만 사용할 때보다 약 5 %의 향상을 제공합니다.

실용적 함의

  • Video editing tools – 정확한 포인트 트래킹은 로토스코핑, 객체 제거, 모션 그래픽의 핵심입니다. DiTracker의 견고함은 흔들리거나 가려진 영상 작업 시 편집자가 수동 보정을 줄일 수 있게 합니다.
  • Robotics & AR – 움직이는 객체(예: 손, 도구) 위의 랜드마크를 실시간으로 추적하면 특수 센서 없이도 포즈 추정 파이프라인을 향상시킬 수 있습니다. 가벼운 LoRA 적응 덕분에 모델을 엣지 GPU에 배포할 수 있습니다.
  • 3‑D reconstruction pipelines – 더 나은 포인트 대응은 구조‑From‑Motion 및 다중 뷰 스테레오 결과를 직접적으로 깨끗하게 만들어, 비용이 많이 드는 후처리 작업을 감소시킵니다.
  • Foundation model reuse – 이 연구는 대형 비디오 생성 모델을 인식 모듈로 전환하는 실용적인 레시피를 제시하며, 커뮤니티가 diffusion‑based 비디오 트랜스포머를 범용 비디오 백본으로 활용하도록 장려합니다.

제한 사항 및 향후 작업

  • Memory footprint – Full‑resolution DiT attention은 여전히 상당한 GPU 메모리를 요구하므로, 매우 저사양 디바이스에서의 배포가 제한됩니다.
  • Domain shift – 다양한 비디오에 대한 사전 학습이 도움이 되지만, 의료 내시경, 위성 영상 등 극단적인 도메인 차이는 추가 파인튜닝이 필요할 수 있습니다.
  • Temporal horizon – 현재 구현은 짧은 클립(≈8 프레임)만 처리합니다. 시간 창을 확장하면 장기 가림 현상 처리에 더욱 도움이 될 수 있습니다.
  • Future directions suggested by the authors include exploring hierarchical DiT variants for multi‑scale tracking, integrating explicit motion priors, and compressing the model via distillation for mobile‑first applications.

저자

  • Soowon Son
  • Honggyu An
  • Chaehyun Kim
  • Hyunah Ko
  • Jisu Nam
  • Dahyun Chung
  • Siyoon Jin
  • Jung Yi
  • Jaewon Min
  • Junhwa Hur
  • Seungryong Kim

논문 정보

  • arXiv ID: 2512.20606v1
  • Categories: cs.CV
  • Published: December 23, 2025
  • PDF: PDF 다운로드
Back to Blog

관련 글

더 보기 »