[Paper] GOT-JEPA: Joint-Embedding Predictive Architecture를 활용한 모델 적응 및 가림 처리 기반 일반 객체 추적
Source: arXiv - 2602.14771v1
Overview
이 논문은 GOT‑JEPA라는 새로운 사전 학습 프레임워크를 소개합니다. 이 프레임워크는 일반 객체 추적기가 인간 시각 시스템과 더 유사하게 동작하도록 학습시킵니다: 과거 관측을 지속적으로 융합하고, 변화하는 외관에 적응하며, 미세한 수준에서 가림 현상을 추론합니다. Joint‑Embedding Predictive Architecture (JEPA)를 이미지 수준 예측에서 추적 모델 예측으로 확장함으로써, 저자들은 보지 못한 비디오에 훨씬 더 잘 일반화하고, 심한 가림, 방해 객체 및 기타 실제 환경의 방해 요소들을 처리할 수 있는 추적기를 얻었습니다.
주요 기여
- Model‑predictive pre‑training for tracking – JEPA를 적용해 과거 프레임으로부터 트래킹 모델을 예측하도록 확장 (이미지 특징만이 아니라).
- Teacher‑student pseudo‑label scheme – 깨끗한 프레임을 가진 Teacher가 의사 트래킹 모델을 생성하고, Student는 손상된(가려지거나, 노이즈가 섞인) 프레임으로부터 이를 재현하도록 학습하여 열악한 조건에서도 안정적인 감독을 제공.
- OccuSolver 모듈 – 트래커 자체의 객체 사전 정보를 활용해 객체 중심 가시성 추정기를 반복적으로 정제하여 객체 인식 기반 가림 마스크를 생성.
- 통합 학습 파이프라인 – 도메인 전반에 걸친 일반화와 가림 처리 능력을 동시에 향상시키며, 별도의 수작업 가림 라벨이 필요 없음.
- 광범위한 벤치마크 검증 – 7개의 공개 트래킹 데이터셋에서 최첨단 성능을 달성, 특히 심한 가림 및 급격한 외관 변화 상황에서 뛰어난 결과를 보임.
Methodology
-
Historical Context Encoding
- 트래커는 과거 프레임(예: 마지막 5–10 프레임)의 짧은 메모리를 유지합니다. 이 프레임들은 움직임, 외관, 공간 레이아웃을 포착하는 압축 표현으로 인코딩됩니다.
-
Teacher Predictor (Clean View)
- 히스토리 컨텍스트와 클린 현재 프레임을 입력으로, 교사 네트워크는 pseudo‑tracking model(예: 객체별 임베딩과 움직임 벡터 집합)을 예측합니다. 이 모델은 현재 시점에 대한 “골드 스탠다드” 역할을 합니다.
-
Student Predictor (Corrupted View)
- 동일한 히스토리 컨텍스트에 손상된 현재 프레임(시뮬레이션된 가림, 노이즈, 모션 블러)을 짝지어 사용합니다. 학생 네트워크는 교사가 만든 같은 pseudo‑tracking model을 예측해야 합니다.
- 손실은 교사와 학생 출력 사이의 단순 L2 거리이며, 이를 통해 학생이 시각적 저하에 강인하도록 유도합니다.
-
OccuSolver – Occlusion Reasoning Layer
- 포인트‑센트릭 트래커(예: 밀집 옵티컬 플로우 또는 키포인트 트래커)를 기반으로 합니다.
- 거친 가시성 추정으로 시작한 뒤, 트래커 자체가 생성한 객체 사전(크기, 형태, 움직임)을 사용해 반복적으로 정제합니다.
- 정제된 가시성 마스크는 예측기에 다시 피드백되어 가려진 포인트를 무시하고 신뢰할 수 있는 단서에 집중하도록 합니다.
-
Training Loop
- (a) 대규모 라벨이 없는 비디오 코퍼스에서 교사‑학생 쌍을 사전 학습하고, (b) 표준 트래킹 벤치마크에서 전체 시스템(OccuSolver 포함)을 미세 조정하는 과정을 교대로 수행합니다.
- 명시적인 가림 라벨이 필요하지 않으며, 시스템은 교사‑학생 일관성 신호를 통해 암묵적으로 이를 학습합니다.
결과 및 발견
| 벤치마크 | 기본 트래커 (GOT‑JEPA 미사용) | GOT‑JEPA (+ OccuSolver) | 상대 향상 |
|---|---|---|---|
| LaSOT | 68.2 % AO (평균 겹침) | 74.5 % | +9.2 % |
| TrackingNet | 71.0 % AO | 77.3 % | +8.9 % |
| OTB‑100 | 84.5 % 성공률 | 89.1 % | +5.4 % |
| VOT‑2022 | 0.28 EAO (예상 평균 겹침) | 0.34 | +21 % |
- 일반화: 분포 외 비디오(예: 야간 운전, 수중 영상)에서 GOT‑JEPA 트래커는 >70 % AO를 유지했으며, 기존 트래커는 55 % 이하로 떨어졌습니다.
- 폐색 견고성: 합성 폐색 테스트(객체의 최대 70 %를 가리는 무작위 마스크)에서 가시성 인식 버전은 >60 % AO를 유지했으며, 이는 기본 대비 30 % 향상되었습니다.
- 소거 실험: teacher‑student 일관성 손실을 제거하면 성능이 약 4 % AO 감소했으며, 이는 의사‑지도(pseudo‑supervision)의 중요성을 확인합니다. OccuSolver를 제거하면 폐색 처리 이득이 절반으로 감소했습니다.
실용적 시사점
- 플러그‑앤‑플레이 사전 학습: 개발자는 기존 트래커(시암, 트랜스포머 기반 등) 어느 것이든 교사‑학생 사전 학습 레시피를 적용해 핵심 아키텍처를 재설계하지 않고도 견고성을 향상시킬 수 있다.
- 주석 부담 감소: 가림 마스크가 암묵적으로 학습되므로, 팀은 비용이 많이 드는 프레임별 가림 라벨링 없이 원시 비디오 스트림으로 학습할 수 있다.
- 엣지 디바이스 친화성: 학생 예측기와 OccuSolver는 경량(전체 약 2 M 파라미터)이며 최신 모바일 GPU에서 >30 fps로 실행돼 AR/VR, 로보틱스, 자율주행 인식 스택에 적합하다.
- 동적 환경에서의 안전성 향상: 갑작스러운 가림(예: 보행자가 차 뒤로 들어가는 상황)을 더 잘 처리함으로써 자율 시스템의 객체 수준 상황 인식이 더욱 신뢰성 있게 된다.
- 크로스 도메인 배포: 동일 모델을 감시, 스포츠 분석, 소비자용 비디오 편집 도구 등에 걸쳐 배포할 수 있어 도메인별 미세조정 필요성이 감소한다.
제한 사항 및 향후 작업
- 단기 메모리 윈도우: 현재 설계는 몇 프레임만 되돌아보며; 장기 재식별(예: 오랜 사라짐 후)은 여전히 시스템에 도전 과제입니다.
- 합성 가림 편향: 훈련 시 가림은 인위적으로 생성됩니다; 실제 세계의 가림 패턴(예: 반투명 물체)은 다를 수 있어, 특정 분야로의 전이성을 제한할 수 있습니다.
- 다수 객체에 대한 확장성: 포인트 중심 접근 방식은 소수의 목표에 잘 작동하지만, 수백 개 인스턴스의 밀집 다중 객체 추적으로 확장하려면 추가적인 계층 구조나 그룹화 메커니즘이 필요할 수 있습니다.
- 미래 방향은 저자들이 제안한 바와 같이 다중 모달 입력(예: 깊이, LiDAR)으로 교사‑학생 프레임워크를 확장하고, 장기 메모리 모듈을 통합하며, 실제 물리와 더 잘 맞는 자기 지도 가림 합성을 탐구하는 것을 포함합니다.
저자
- Shih-Fang Chen
- Jun-Cheng Chen
- I-Hong Jhuo
- Yen-Yu Lin
논문 정보
- arXiv ID: 2602.14771v1
- 분류: cs.CV, cs.AI, cs.LG, cs.MM, cs.NE
- 출판일: 2026년 2월 16일
- PDF: PDF 다운로드