[논문] 비주얼 인컨텍스트 학습은 어디로? 도메인·작업을 아우르는 통합 벤치마크
Source: arXiv - 2606.10967v1
개요
시각적 인-컨텍스트 학습은 제공된 컨텍스트를 기반으로 예측을 생성하고 테스트 시점에 새로운 비전 작업에 적응할 수 있는 동적 모델을 향한 경로로 제안되었습니다. 그러나 이러한 모델들의 적응 능력에 대한 평가는 주로 사전 학습에서 사용된 작업이나 이미지 도메인을 그대로 반영하는 제한된 설정에 국한되어 실제 적응이 필요하지 않은 경우가 많았습니다. 우리는 다양한 이미지 도메인과 광범위한 작업을 중점으로 하는 Visual In-Context Benchmark (VIBE) 를 구축함으로써 이 격차를 메우고자 합니다. 이를 통해 새로운 이미지 및 작업 분포에 직면했을 때 시각적 인-컨텍스트 모델의 적응 능력을 훨씬 명확히 파악할 수 있습니다. 우리는 6개의 모델을 14개의 데이터셋과 12개의 작업(총 106개의 데이터셋‑작업 조합)에서 스트레스 테스트하고, 통합되고 재현 가능한 평가 프로토콜 하에서 원샷 설정으로 비교했습니다. 우리의 평가 결과는 시각적 인-컨텍스트 학습의 현황에 대한 핵심 통찰을 제공하며, 제한점, 체계적인 실패 모드 및 유망한 방향성을 제시합니다. 보다 폭넓은 평가를 촉진하기 위해 VIBE 툴킷을 공개할 예정입니다.
주요 기여
이 논문은 다음 분야의 연구를 다룹니다:
- cs.CV
방법론
자세한 방법론은 전체 논문을 참고하십시오.
실용적 함의
본 연구는 cs.CV 분야의 발전에 기여합니다.
저자
- Pradnya Halady
- Jiale Wei
- Zdravko Marinov
- Alexander Jaus
- Simon Reiß
논문 정보
- arXiv ID: 2606.10967v1
- 분류: cs.CV
- 발표일: 2026년 6월 9일
- PDF: PDF 다운로드