[Paper] ShotFinder: 상상력 기반 오픈 도메인 비디오 샷 검색 via 웹 검색
Source: arXiv - 2601.23232v1
개요
The paper introduces ShotFinder, a new benchmark and retrieval system that lets you search for specific video shots (short, coherent clips) using natural‑language queries. By combining large language models (LLMs) with web‑scale video search, the authors expose current gaps in multimodal AI—especially when it comes to handling temporal cues, color, visual style, audio, and resolution in open‑domain video content.
핵심 기여
- ShotFinder 벤치마크: 20개 카테고리에 걸친 1,210개의 선별된 YouTube 샘플을 제공하며, 각 샘플은 키프레임 중심 설명과 다섯 가지 제어 가능한 제약(시간 순서, 색상, 시각적 스타일, 오디오, 해상도)으로 주석이 달려 있습니다.
- 3단계 검색 파이프라인:
- “비디오 상상”을 통한 질의 확장 – LLM이 상상된 시각·오디오 단서를 생성해 텍스트 질의를 풍부하게 합니다.
- 후보 비디오 검색 – 표준 웹 검색 엔진을 활용해 짧은 비디오 목록을 추출합니다.
- 설명 기반 시간적 로컬라이제이션 – 확장된 질의를 검색된 비디오 내부의 특정 샷 경계와 정렬합니다.
- 포괄적인 평가: GPT‑4V, Gemini 등 여러 폐쇄형 및 오픈소스 멀티모달 모델을 대상으로 수행했으며, 인간 주석자와 비교해 상당한 성능 격차가 있음을 밝혀냈습니다.
- 제약 난이도에 대한 진단 분석: 시간 순서 제약은 상대적으로 쉬운 반면, 색상 및 시각적 스타일 매칭은 현재 모델들에게 여전히 어려운 과제로 남아 있음을 보여줍니다.
방법론
- Data creation – 저자들은 대형 생성 모델(e.g., GPT‑4)을 사용해 YouTube 동영상에 대한 샷‑레벨 설명과 제약 사양을 생성하도록 프롬프트를 제공했습니다. 인간 주석자들은 품질을 보장하기 위해 이 출력물을 검증하고 다듬었습니다.
- Query imagination – 사용자의 짧은 텍스트 요청(e.g., “안개 낀 호수 위의 일출과 부드러운 피아노 음악”)이 주어지면, LLM이 이를 보다 풍부한 “상상된” 설명으로 확장하여 예상되는 시각적 속성, 오디오 신호, 시간적 힌트를 포함합니다.
- Retrieval – 확장된 쿼리를 기존 웹 검색 API에 전달하면 후보 동영상들의 순위가 매겨진 리스트가 반환됩니다.
- Temporal localization – 다중모달 모델이 각 후보 동영상을 처리하면서 프레임‑레벨 임베딩을 상상된 설명과 비교하고 가능한 샷 경계에 점수를 매깁니다. 가장 높은 점수를 받은 구간이 답변으로 반환됩니다.
- Evaluation – 인간 평가자가 검색된 샷이 다섯 가지 제약을 모두 만족하는지 판단합니다. 측정 지표로는 검색에 대한 recall@k와 시간 정렬에 대한 Intersection‑over‑Union (IoU)이 포함됩니다.
결과 및 발견
- 전체 성능: 최고의 멀티모달 모델은 약 45 % 인간 수준 정확도를 달성했으며, 인간 주석자들의 약 90 % 점수에 크게 못 미칩니다.
- 제약 조건별 성과:
- 시간 순서: 약 70 % 성공률로, 모델이 “first/then” 단서를 비교적 잘 따름을 나타냅니다.
- 오디오: 약 55 % 성공률로, 소리 설명을 매칭하는 중간 정도의 능력을 보여줍니다.
- 해상도: 약 60 % 성공률로, 거친 품질 단서를 꽤 잘 처리함을 반영합니다.
- 색상 및 시각 스타일: 40 % 미만 성공률로, 가장 큰 병목 현상—모델이 텍스트만으로 미묘한 색조 팔레트나 예술적 스타일을 구분하는 데 어려움을 겪습니다.
- 폐쇄형 vs. 오픈소스: 폐쇄형 모델(GPT‑4V, Gemini)이 오픈소스 대안을 능가하지만, 질의 상상 단계가 사용될 때 격차가 좁아져 프롬프트 엔지니어링의 중요성을 강조합니다.
- 소거 실험: 질의‑상상 단계를 제거하면 검색 재현율이 약 15 % 감소하여 언어‑시각 격차를 메우는 데 그 단계의 가치가 있음을 확인합니다.
실용적 시사점
- 콘텐츠 중재 및 저작권 – 자동화 도구는 수동 검토보다 더 빠르게 웹 전반에 걸쳐 침해 또는 정책 위반 샷을 찾아낼 수 있습니다.
- 미디어 제작 – 편집자는 방대한 비디오 라이브러리를 질의할 수 있습니다(예: “낮은 조명에 파란색 색조가 가미된 비오는 밤 장면 찾기”) 참고 영상을 추출하여 수동 탐색 시간을 줄입니다.
- e‑러닝 및 지식 베이스 – 플랫폼은 정확한 교육 클립(예: “교사가 칠판에 공식을 쓰는 순간”)을 표시하여 인터랙티브 교과서를 풍부하게 만들 수 있습니다.
- 광고 및 브랜드 모니터링 – 브랜드는 사용자 제작 비디오에서 시각적 아이덴티티(색상 팔레트, 스타일)가 어떻게 나타나는지 추적하여 실시간 준수 검사를 가능하게 합니다.
- 검색 엔진 강화 – ShotFinder 스타일 파이프라인을 통합하면 일반 비디오 검색을 세밀한 샷 수준 검색으로 전환할 수 있어 YouTube나 Vimeo와 같은 플랫폼에 차세대 기능을 제공합니다.
제한 사항 및 향후 작업
- 데이터셋 규모 및 다양성 – 1,210개의 샷이 많은 주제를 포괄하지만, 온라인에 존재하는 수십억 개의 비디오에 비하면 아직은 제한적입니다; 규모를 확대하면 모델의 견고성을 테스트할 수 있습니다.
- 웹 검색 API 의존성 – 파이프라인의 두 번째 단계가 외부 검색 엔진에 의존하므로 편향이나 지연이 발생할 수 있습니다; 엔드‑투‑엔드 학습 기반 검색을 탐색할 수 있습니다.
- 제약 조건 세분화 – 현재 제약은 단일 요인에 국한됩니다; 실제 쿼리는 종종 여러 요인을 결합합니다(예: “따뜻한 색조의 핸드헬드 카메라 샷에 도시 배경 소음 포함”). 다중 요인 제약을 처리하는 것은 아직 해결되지 않은 과제입니다.
- 오디오 이해 – 오디오 구성 요소가 거친 기술에만 국한되어 있습니다; 보다 풍부한 사운드 의미(음성 내용, 음악 장르 등)를 위해서는 더 깊은 멀티모달 모델링이 필요합니다.
- 상상력 품질 평가 – “비디오 상상” 단계는 휴리스틱 방식입니다; 향후 작업에서는 생성된 설명의 충실도를 측정하고 향상시키는 방법을 정형화할 수 있습니다.
ShotFinder는 멀티모달 AI의 다음 경계를 비춥니다: 전체 비디오 검색에서 정확하고 제약 기반의 샷 탐색으로 전환하는 것입니다. 개발자들이 이러한 기능을 제품에 통합하기 시작하면, 모델이 인간이 당연히 여기는 시각적 뉘앙스를 따라잡을 때 더 스마트하고 세분화된 비디오 검색 경험을 기대할 수 있습니다.
저자
- Tao Yu
- Haopeng Jin
- Hao Wang
- Shenghua Chai
- Yujia Yang
- Junhao Gong
- Jiaming Guo
- Minghui Zhang
- Xinlong Chen
- Zhenghao Zhang
- Yuxuan Zhou
- Yanpei Gong
- YuanCheng Liu
- Yiming Ding
- Kangwei Zeng
- Pengfei Yang
- Zhongtian Luo
- Yufei Xiong
- Shanbin Zhang
- Shaoxiong Cheng
- Huang Ruilin
- Li Shuo
- Yuxi Niu
- Xinyuan Zhang
- Yueya Xu
- Jie Mao
- Ruixuan Ji
- Yaru Zhao
- Mingchen Zhang
- Jiabing Yang
- Jiaqi Liu
- YiFan Zhang
- Hongzhu Yi
- Xinming Wang
- Cheng Zhong
- Xiao Ma
- Zhang Zhang
- Yan Huang
- Liang Wang
논문 정보
- arXiv ID: 2601.23232v1
- 분류: cs.CV, cs.AI
- 발행일: 2026년 1월 30일
- PDF: PDF 다운로드