[Paper] GOT-JEPA: Joint-Embedding Predictive Architecture를 활용한 모델 적응 및 가림 처리 기반 일반 객체 추적

발행: 3일 전 (2026년 2월 16일 오후 11:26 GMT+9)

10 분 소요

원문: arXiv

Source: arXiv - 2602.14771v1

Overview

이 논문은 GOT‑JEPA라는 새로운 사전 학습 프레임워크를 소개합니다. 이 프레임워크는 일반 객체 추적기가 인간 시각 시스템과 더 유사하게 동작하도록 학습시킵니다: 과거 관측을 지속적으로 융합하고, 변화하는 외관에 적응하며, 미세한 수준에서 가림 현상을 추론합니다. Joint‑Embedding Predictive Architecture (JEPA)를 이미지 수준 예측에서 추적 모델 예측으로 확장함으로써, 저자들은 보지 못한 비디오에 훨씬 더 잘 일반화하고, 심한 가림, 방해 객체 및 기타 실제 환경의 방해 요소들을 처리할 수 있는 추적기를 얻었습니다.

주요 기여

Model‑predictive pre‑training for tracking – JEPA를 적용해 과거 프레임으로부터 트래킹 모델을 예측하도록 확장 (이미지 특징만이 아니라).
Teacher‑student pseudo‑label scheme – 깨끗한 프레임을 가진 Teacher가 의사 트래킹 모델을 생성하고, Student는 손상된(가려지거나, 노이즈가 섞인) 프레임으로부터 이를 재현하도록 학습하여 열악한 조건에서도 안정적인 감독을 제공.
OccuSolver 모듈 – 트래커 자체의 객체 사전 정보를 활용해 객체 중심 가시성 추정기를 반복적으로 정제하여 객체 인식 기반 가림 마스크를 생성.
통합 학습 파이프라인 – 도메인 전반에 걸친 일반화와 가림 처리 능력을 동시에 향상시키며, 별도의 수작업 가림 라벨이 필요 없음.
광범위한 벤치마크 검증 – 7개의 공개 트래킹 데이터셋에서 최첨단 성능을 달성, 특히 심한 가림 및 급격한 외관 변화 상황에서 뛰어난 결과를 보임.

Methodology

Historical Context Encoding
- 트래커는 과거 프레임(예: 마지막 5–10 프레임)의 짧은 메모리를 유지합니다. 이 프레임들은 움직임, 외관, 공간 레이아웃을 포착하는 압축 표현으로 인코딩됩니다.
Teacher Predictor (Clean View)
- 히스토리 컨텍스트와 클린 현재 프레임을 입력으로, 교사 네트워크는 pseudo‑tracking model(예: 객체별 임베딩과 움직임 벡터 집합)을 예측합니다. 이 모델은 현재 시점에 대한 “골드 스탠다드” 역할을 합니다.
Student Predictor (Corrupted View)
- 동일한 히스토리 컨텍스트에 손상된 현재 프레임(시뮬레이션된 가림, 노이즈, 모션 블러)을 짝지어 사용합니다. 학생 네트워크는 교사가 만든 같은 pseudo‑tracking model을 예측해야 합니다.
- 손실은 교사와 학생 출력 사이의 단순 L2 거리이며, 이를 통해 학생이 시각적 저하에 강인하도록 유도합니다.
OccuSolver – Occlusion Reasoning Layer
- 포인트‑센트릭 트래커(예: 밀집 옵티컬 플로우 또는 키포인트 트래커)를 기반으로 합니다.
- 거친 가시성 추정으로 시작한 뒤, 트래커 자체가 생성한 객체 사전(크기, 형태, 움직임)을 사용해 반복적으로 정제합니다.
- 정제된 가시성 마스크는 예측기에 다시 피드백되어 가려진 포인트를 무시하고 신뢰할 수 있는 단서에 집중하도록 합니다.
Training Loop
- (a) 대규모 라벨이 없는 비디오 코퍼스에서 교사‑학생 쌍을 사전 학습하고, (b) 표준 트래킹 벤치마크에서 전체 시스템(OccuSolver 포함)을 미세 조정하는 과정을 교대로 수행합니다.
- 명시적인 가림 라벨이 필요하지 않으며, 시스템은 교사‑학생 일관성 신호를 통해 암묵적으로 이를 학습합니다.

결과 및 발견

벤치마크	기본 트래커 (GOT‑JEPA 미사용)	GOT‑JEPA (+ OccuSolver)	상대 향상
LaSOT	68.2 % AO (평균 겹침)	74.5 %	+9.2 %
TrackingNet	71.0 % AO	77.3 %	+8.9 %
OTB‑100	84.5 % 성공률	89.1 %	+5.4 %
VOT‑2022	0.28 EAO (예상 평균 겹침)	0.34	+21 %

일반화: 분포 외 비디오(예: 야간 운전, 수중 영상)에서 GOT‑JEPA 트래커는 >70 % AO를 유지했으며, 기존 트래커는 55 % 이하로 떨어졌습니다.
폐색 견고성: 합성 폐색 테스트(객체의 최대 70 %를 가리는 무작위 마스크)에서 가시성 인식 버전은 >60 % AO를 유지했으며, 이는 기본 대비 30 % 향상되었습니다.
소거 실험: teacher‑student 일관성 손실을 제거하면 성능이 약 4 % AO 감소했으며, 이는 의사‑지도(pseudo‑supervision)의 중요성을 확인합니다. OccuSolver를 제거하면 폐색 처리 이득이 절반으로 감소했습니다.

실용적 시사점

플러그‑앤‑플레이 사전 학습: 개발자는 기존 트래커(시암, 트랜스포머 기반 등) 어느 것이든 교사‑학생 사전 학습 레시피를 적용해 핵심 아키텍처를 재설계하지 않고도 견고성을 향상시킬 수 있다.
주석 부담 감소: 가림 마스크가 암묵적으로 학습되므로, 팀은 비용이 많이 드는 프레임별 가림 라벨링 없이 원시 비디오 스트림으로 학습할 수 있다.
엣지 디바이스 친화성: 학생 예측기와 OccuSolver는 경량(전체 약 2 M 파라미터)이며 최신 모바일 GPU에서 >30 fps로 실행돼 AR/VR, 로보틱스, 자율주행 인식 스택에 적합하다.
동적 환경에서의 안전성 향상: 갑작스러운 가림(예: 보행자가 차 뒤로 들어가는 상황)을 더 잘 처리함으로써 자율 시스템의 객체 수준 상황 인식이 더욱 신뢰성 있게 된다.
크로스 도메인 배포: 동일 모델을 감시, 스포츠 분석, 소비자용 비디오 편집 도구 등에 걸쳐 배포할 수 있어 도메인별 미세조정 필요성이 감소한다.

제한 사항 및 향후 작업

단기 메모리 윈도우: 현재 설계는 몇 프레임만 되돌아보며; 장기 재식별(예: 오랜 사라짐 후)은 여전히 시스템에 도전 과제입니다.
합성 가림 편향: 훈련 시 가림은 인위적으로 생성됩니다; 실제 세계의 가림 패턴(예: 반투명 물체)은 다를 수 있어, 특정 분야로의 전이성을 제한할 수 있습니다.
다수 객체에 대한 확장성: 포인트 중심 접근 방식은 소수의 목표에 잘 작동하지만, 수백 개 인스턴스의 밀집 다중 객체 추적으로 확장하려면 추가적인 계층 구조나 그룹화 메커니즘이 필요할 수 있습니다.
미래 방향은 저자들이 제안한 바와 같이 다중 모달 입력(예: 깊이, LiDAR)으로 교사‑학생 프레임워크를 확장하고, 장기 메모리 모듈을 통합하며, 실제 물리와 더 잘 맞는 자기 지도 가림 합성을 탐구하는 것을 포함합니다.

저자

Shih-Fang Chen
Jun-Cheng Chen
I-Hong Jhuo
Yen-Yu Lin

논문 정보

arXiv ID: 2602.14771v1
분류: cs.CV, cs.AI, cs.LG, cs.MM, cs.NE
출판일: 2026년 2월 16일
PDF: PDF 다운로드

[Paper] GOT-JEPA: Joint-Embedding Predictive Architecture를 활용한 모델 적응 및 가림 처리 기반 일반 객체 추적

Overview

주요 기여

Methodology

결과 및 발견

실용적 시사점

제한 사항 및 향후 작업

저자

논문 정보

관련 글

[Paper] 작업에 구애받지 않는 Continual Learning을 이용한 흉부 방사선 사진 분류

[Paper] 이해 vs. 생성: 멀티모달 모델에서 최적화 딜레마 탐색

[Paper] 가중치 기반 LoRAs를 이용한 시각적 유추 공간 확장

[Paper] ThermEval: Vision‑Language 모델의 열영상 평가를 위한 구조화된 벤치마크