[Paper] CoWTracker: 상관 대신 워핑으로 추적

발행: (2026년 2월 5일 오전 03:58 GMT+9)
8 min read
원문: arXiv

Source: arXiv - 2602.04877v1

개요

이 논문은 CoWTracker라는 밀집 포인트‑트래킹 시스템을 소개합니다. 이 시스템은 전통적인 비용이 많이 드는 상관‑기반 매칭을 반복적인 워핑 전략으로 대체합니다. 변환기(transformer)를 활용한 공동 시공간 추론을 통해, 저자들은 여러 트래킹 벤치마크에서 최첨단(state‑of‑the‑art) 정확도를 달성하면서도 계산 비용을 크게 줄였습니다—이를 통해 밀집 트래킹이 실시간 비디오 분석 및 로보틱스에 적용 가능하게 되었습니다.

주요 기여

  • Warp‑instead‑of‑correlation 패러다임: 2차 시간 비용 볼륨을 제거하여 고해상도에서 확장 가능한 밀집 트래킹을 가능하게 함.
  • Iterative warping refinement: 현재 추정치를 사용해 대상 프레임 특징을 쿼리 프레임으로 반복적으로 워핑하며, 최신 광류 파이프라인과 유사함.
  • Transformer‑based joint reasoning: 단일 트랜스포머가 모든 포인트 트랙을 동시에 처리하여, 트랙별 최적화 없이 장거리 시간 일관성을 제공함.
  • Unified performance: 밀집 포인트 트래킹 데이터셋(TAP‑Vid‑DAVIS, TAP‑Vid‑Kinetics, Robo‑TAP)에서 새로운 기록을 세우고, Sintel, KITTI, Spring 등에서 전용 광류 방법과 경쟁함.
  • Simplicity & efficiency: 아키텍처가 간결하고 메모리 요구량이 적으며, 상관관계 중심 베이스라인보다 빠르게 실행됨.

방법론

  1. Feature Extraction: CNN 백본이 쿼리(소스)와 타깃 프레임 모두에서 밀집 특징 맵을 추출합니다.
  2. Initial Guess: 포인트들은 대략적인 추정값(예: 항등 워프 또는 간단한 움직임 모델)으로 초기화됩니다.
  3. Iterative Warping Loop:
    • 현재 포인트 추정값이 워프 필드를 정의하여 타깃 프레임 특징을 쿼리 프레임 좌표계로 끌어옵니다.
    • 워핑된 특징은 쿼리 특징과 연결되어 트랜스포머 인코더에 입력됩니다.
    • 트랜스포머는 공간·시간 전반에 걸친 모든 포인트 집합에 주의를 기울여 각 포인트의 변위를 업데이트하며, 컨텍스트를 효과적으로 공유합니다.
    • 업데이트된 변위는 다음 반복을 위한 워프를 다시 계산하는 데 사용됩니다.
  4. Convergence: 고정된 반복 횟수(보통 3~5회) 후, 최종 변위가 밀집 포인트 트랙으로 출력됩니다.

이 방법은 명시적인 쌍별 유사도 행렬(코스트 볼륨)을 계산하지 않으므로, 각 반복은 픽셀 수에 대해 선형 시간으로 실행되며, RAFT와 같은 최신 광학 흐름 네트워크와 유사합니다.

결과 및 발견

  • Dense Tracking Benchmarks: CoWTracker는 TAP‑Vid‑DAVIS와 TAP‑Vid‑Kinetics에서 절대 J‑mean 기준으로 3–7 % 향상하고, 로보틱스 중심 Robo‑TAP 데이터셋에서 20 % 오류 감소를 보입니다.
  • Optical Flow Competitiveness: Sintel (final pass)에서 EPE 2.8 px를 달성해 많은 고전 흐름 방법들을 앞서며, KITTI 2015에서는 5.1 % 아웃라이어 비율에 도달해 특화된 흐름 네트워크와 견줄 만합니다.
  • Efficiency Gains: 메모리 사용량이 약 40 % 감소하고, 단일 RTX 3090에서 추론 속도가 1.8× 향상되며, 정확도는 비슷하게 유지됩니다( correlation‑based baselines와 비교).
  • Ablation Insights: 트랜스포머를 제거하거나 워핑 반복 횟수를 줄이면 성능이 눈에 띄게 감소하며, 공동 추론과 반복 정제가 모두 필수적임을 확인합니다.

실용적 시사점

  • 실시간 비디오 분석: 낮은 계산 오버헤드 덕분에 밀집 트래킹을 실시간 비디오 스트림에 적용할 수 있어 스포츠 분석, AR/VR용 모션 캡처, 감시와 같은 응용이 가능해집니다.
  • 로봇공학 및 조작: 정확하고 빠른 점 대응은 로봇이 물체 움직임을 이해하고 잡기를 계획하는 데 도움을 주며, 특히 전통적인 희소 키포인트가 실패하는 복잡하거나 동적인 환경에서 유용합니다.
  • 통합 비전 파이프라인: 동일한 아키텍처가 밀집 트래킹과 옵티컬 플로우 모두에서 뛰어나기 때문에 개발자는 여러 움직임 추정 작업에 하나의 모델을 사용할 수 있어 배포와 유지보수가 간소화됩니다.
  • 엣지 배포: 선형 시간 워핑 방식은 메모리 부담을 줄여 Jetson, 스마트폰 등 엣지 디바이스에서 밀집 트래킹을 실행할 수 있게 하며, 디바이스 내 비디오 편집이나 AR 오버레이와 같은 활용이 가능해집니다.

제한 사항 및 향후 연구

  • 반복 수렴: 3–5번의 반복은 벤치마크에서 잘 작동하지만, 매우 비강직적인 움직임이나 큰 변위는 더 많은 단계가 필요할 수 있어 지연 시간이 증가합니다.
  • 트랜스포머 확장성: 전역 어텐션 메커니즘은 초고해상도 프레임에서 병목이 될 수 있으며, 희소 또는 계층적 어텐션을 탐색하면 이를 완화할 수 있습니다.
  • 학습 데이터 편향: 모델은 합성 및 선별된 비디오 데이터셋으로 학습되었으며, 의료 내시경과 같은 매우 도메인 특화된 영상에 대한 성능은 아직 검증되지 않았습니다.
  • 향후 방향: 저자들은 학습된 움직임 사전, 다중 스케일 워핑, 적응형 반복 횟수 통합을 통해 다양한 시나리오에서 속도와 견고성을 더욱 향상시킬 것을 제안합니다.

저자

  • Zihang Lai
  • Eldar Insafutdinov
  • Edgar Sucar
  • Andrea Vedaldi

논문 정보

  • arXiv ID: 2602.04877v1
  • 카테고리: cs.CV
  • 출판일: 2026년 2월 4일
  • PDF: Download PDF
Back to Blog

관련 글

더 보기 »

[Paper] 강화된 어텐션 학습

강화 학습(RL)을 통한 사후 훈련은 테스트 시 스케일링을 통해 대형 언어 모델(LLMs)의 추론 능력을 크게 향상시켰습니다. 그러나, 확장하는 th...