[논문] 갭에 주목: 비디오 인스턴스 세그멘테이션 성능 병목 해소
개요
비디오 인스턴스 분할(VIS)에서는 분류, 세분화, 추적 목표가 함께 평가되지만, 각각이 성능 저하에 얼마나 기여하는지는 명확하지 않다. 우리는 정체성과 클래스 할당을 정수 선형 프로그램(ILP)으로 정의하는 진단 프레임워크를 제시하여, 모델에 독립적인 오라클을 제공하고 각 오류 원인을 계층적으로 분리한다. YouTube‑VIS 2019/2021 및 OVIS의 진단 하위 집합을 포함한 온라인·오프라인 패러다임의 7가지 VIS 방법에 적용한 결과, 우리의 분석은 일관된 모습을 보여준다. 추적 불안정성은 온라인 방법의 주요 병목 현상으로, 심한 가림 현상에서 20 AP를 초과하는 격차가 발생하며, 비디오 길이와 인스턴스 밀도가 증가함에 따라 급격히 커진다. 표준 벤치마크에서는 의미론적 분류가 의미 있는 기여를 하지만, 추적이 가장 많이 실패하는 상황에서는 그 영향이 거의 무시된다. 더 강력한 백본이 기본 점수를 크게 향상시키지만, AP 추적 격차는 크게 줄어들지 않아, 시간적 취약성이 순전히 표현력 때문이 아니라 알고리즘적 원인임을 확인한다. 오라클을 보완하기 위해 우리는 TrackLens라는 시각 도구를 도입하여, 격차 크기를 관찰 가능한 질의 수준의 실패 모드로 변환한다. 이 두 도구는 VIS의 핵심 과제인 견고한 장기 시간 연관성을 목표로 하는 체계적인 기반을 제공한다.
주요 기여
이 논문은 다음 분야의 연구를 제시한다:
- cs.CV
방법론
자세한 방법론은 전체 논문을 참고하시기 바랍니다.
실용적 함의
이 연구는 cs.CV 분야의 발전에 기여한다.
저자
- Danial Hamdi
- Fardin Ayar
- Mahdi Javanmardi
논문 정보
- arXiv ID: 2606.07394v1
- Categories: cs.CV
- Published: 2026년 6월 5일
- PDF: PDF 다운로드