[Paper] 한 시간짜리 영상에서 자연어 시간 정합은 검색 문제: 벤치마크와 실증적 분해

발행: (2026년 6월 11일 AM 01:35 GMT+9)
3 분 소요
원문: arXiv

출처: arXiv - 2606.12300v1

개요

시간적 그라운딩—비디오에 대한 자연어 질의에 대해 구간 $[t_s, t_e]$를 반환하는 작업—은 장시간 비디오와의 언어 인터페이스이지만, 지금까지는 짧은 비디오에만 초점을 맞추어 연구되었습니다. 시간 규모가 시간 단위인 자연어 그라운딩의 역학은 아직 충분히 탐구되지 않았습니다. 우리는 시간 규모가 시간 단위일 때, 제약 조건은 인식이 아니라 검색이라고 주장합니다: Video‑LLM은 인근 이벤트를 찾는 것이 아니라, 자연어 질의가 주어졌을 때 긴 비디오의 관련 구간을 검색하는 데 병목이 됩니다. 이를 검증하기 위해 우리는 ExtremeWhenBench를 공개합니다. 이는 최초의 공개 시간‑규모 그라운딩 벤치마크로, 194개의 비디오(평균 75.7분, 최대 9시간)에서 2,273개의 질의를 포함하며, 자유형 질의 분포를 제공합니다. 모든 기존 Video‑LLM은 성능이 급락하는 반면, 프레임 수준 검색 베이스라인이 이를 능가합니다; 실패 원인 분석 결과 85%의 실패가 검색에 기인함을 확인했으며, 검색‑후‑그라운딩 하이브리드 방식이 단일 Video‑LLM 대비 6.7배 향상된 성능을 보였습니다—이는 개방형 도메인 QA에서의 “검색‑후‑읽기”와 유사합니다.

주요 기여

이 논문은 다음 분야의 연구를 제시합니다:

  • cs.CV
  • cs.AI

방법론

자세한 방법론은 전체 논문을 참고하십시오.

실용적 함의

본 연구는 cs.CV 분야의 발전에 기여합니다.

저자

  • 서석민
  • 김기욱

논문 정보

  • arXiv ID: 2606.12300v1
  • 분류: cs.CV, cs.AI
  • 발표일: 2026년 6월 10일
  • PDF: PDF 다운로드
0 조회
Back to Blog

관련 글

더 보기 »